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1.1 研究 背景 和 意义 


统计 学 习 (Statistical Learning) 是 一 种 专门 研究 小 样本 情况 下 机 器 学 习 规 律 
的 理论 ,在 这 种 体系 下 的 统计 推理 规则 不 仅 考虑 了 对 渐 近 性 能 的 要 求 , 而 且 追 求 在 
现 有 有 限 信息 的 条 件 下 得 到 最 优 结果 。 近 年 来 ,统计 学 习 领 域 的 学 者 结合 稀 玖 特 
性 对 传统 统计 学 习 理 论 和 方法 进行 了 丰富 和 拓展 ,基于 稀疏 的 统计 学 习 逐 步 成 为 
统计 学 习 与 信息 处 理 的 重要 研究 方向 ,其 在 数据 挖掘 ,内容 检索 .基因 数据 分 析 等 
诸多 领域 得 到 了 广泛 应 用 。 


1.1.1 稀 疏 编码 的 生物 感知 基础 


对 于 稀 蚊 的 研究 ,最 早 源 于 对 神经 科学 和 脑 科学 认 知 的 研究 成 果 。1954 年 ， 
Attneave 最 先 提出 视觉 感知 的 目标 就 是 产生 一 个 外 部 输入 信号 的 有 效 表 示 。 
Barlow 在 1961 年 基于 信息 论 提 出 了 “有 效 编 码 假 设 ”, 认 为 初级 视觉 皮层 神经 细 
胞 的 主要 功能 是 去 除 输入 刺激 的 统计 相关 性 。20 世纪 60 年 代 末 期 ,神经 生理 研 
究 已 表明 了 初级 视觉 皮层 下 细胞 的 感受 野 具 有 显著 的 方向 敏感 性 ,单个 神经 元 仅 
对 某 一 频段 的 信息 呈现 较 强 的 反映 ,如 特定 方向 的 边缘 .线段 ,条纹 等 图 像 特 征 ,其 
空间 感受 野 被 描述 为 具有 局 部 性 方向 性 和 带 通 特性 的 信号 编码 滤波 器 ,而 每 个 神 
经 元 对 这 些 刺激 的 表达 则 采用 了 稀 朴 编码 (Sparse Coding) 原 则 ,将 图 像 在 边缘 ~ tim 
点 、 条 纹 等 方面 的 特性 以 稀 蚊 编码 的 形式 进行 描述 。1996 年 ,Olshausen 和 Field 
在 Nature 上 发 表 论文 ,指出 自然 图 像 经 过 稀 朴 编码 后 得 到 的 基 函 数 类 似 于 V1 区 
内 简单 细胞 感受 野 的 反应 特性 。 这 种 稀疏 编码 模型 提取 的 基 函 数 首次 成 功 模拟 了 
V1 区 内 简单 细胞 感受 野 的 三 个 响应 特性 :空间 域 的 局 部 性 、 时 域 和 频 域 的 方向 性 
和 选择 性 。 考 虑 到 基 函 数 的 过 完备 性 ( 基 函 数 维 数 大 于 输出 神经 元 的 个 数 )， 
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Olshausen 和 Field 在 1997 年 提出 了 一 种 超 完 备 基 的 稀 跑 编码 算法 ,利用 基 函 数 
和 系数 的 概率 密度 模型 成 功 地 模拟 了 V1 区 简单 细胞 感受 野 。 

近年 来 ,人 们 从 神经 生物 学 机 理 模 型 和 计算 机 科学 可 计算 模型 等 角度 对 稀 政 
编码 理论 进行 了 广泛 的 研究 ,并 对 生物 视觉 、. 脑 科学 的 发 展 产 生 了 重要 的 影响 。 
Kay K. №. 和 Gallant 等 从 神经 生理 学 机 制 上 揭示 了 稀 跑 表 达 作 为 一 种 广泛 的 视 
觉 先 验 , 精 确 地 定位 于 人 类 大 脑 视觉 皮层 多 个 功能 区 (如 V1、V2 区 ). 并 在 视觉 认 
知 和 推理 过 程 中 发 挥 着 重要 作用 ,例如 图 1.1 显示 Кау K. N. 等 人 对 图 像 识 别 的 
建 模 过 程 。 这 个 过 程 的 第 一 阶段 是 模型 估计 , 即 对 每 个 测试 者 观看 一 组 自然 图 像 
时 产生 的 功能 磁 共 振 成 像 (FMRI) 数 据 进行 记录 ,再 根据 这 些 数据 为 每 类 图 像 构 
建 一 个 定量 的 感受 野 模 型 , 称 为 相对 感受 野 模型 (receptive-field model)。 该 模型 
基于 Gabor 滤波 金字 塔 , 并 依照 细胞 感受 时 的 三 个 特性 进行 描述 。 第 二 个 阶段 是 
图 像 识别 ,让 每 个 测试 者 观看 男 外 一 组 与 先前 测试 图 片 不 同 的 自然 影像 ,并 记录 当 
时 的 功能 磁 共 振 成 像 数 据 。 然 后 通过 第 一 阶段 构建 的 相对 感受 野 模型 来 计算 这 组 
自然 图 像 , 预 测 每 一 张 图 片 的 功能 磁 共 振 成 像 数 据 ,将 预测 数据 与 实际 测量 数据 相 
对 比 ,选取 最 相近 的 预测 数据 ,从 而 得 到 测试 者 观看 的 图 片 。 这 些 研 究 强 调 人 类 的 
认 知 和 推理 过 程 ,不 仅 需 要 依据 完整 的 信息 输入 ,更 需要 依据 视觉 输入 中 的 很 少 一 
部 分 典型 特征 , 即 依据 某 种 稀 玻 编码 求解 ,这 为 解决 视觉 认 知 问题 提供 了 重要 的 生 
理学 模型 借鉴 。 


1.1.2 稀疏 编码 的 信号 表达 基础 


稀 玻 作为 一 种 重要 的 数据 编码 与 表达 方式 ,不 仅 在 人 类 的 视觉 认 知 机 理 上 具 
有 明确 的 理论 依据 ,而 且 在 信号 表达 与 重建 的 理论 方面 得 到 了 严格 证 明和 推导 。 
Donoho, Tao, Candés 和 Baraniuk 等 提出 的 压缩 感知 (Compressive Sensing, CS) 
理论 ,从 信号 表达 的 角度 证 明了 稀 朴 表达 是 高 维 信号 (比如 音频 .视频 等 ) 在 特定 基 
向 量 ( 比 如 傅 里 叶 基 、 小 波 基 等) 或 “字典 ”上 的 一 种 自然 表达 。 可 压缩 信号 的 少量 
随机 线性 投影 即 包 含 了 重 构 和 人 处理 的 足够 信息 ,利用 信号 可 压缩 的 先 验 知识 和 少 
量 全 局 的 线性 测量 可 以 获得 精确 的 信号 重建 。 在 压缩 感知 理论 基础 上 发 展 的 约束 
优化 求解 策略 为 信号 的 稀 跑 表 达 提 供 了 近似 最 优 的 可 计算 模型 。 同 时 ,通过 学 习 
生成 的 自 适 应 过 完备 宛 余 字 典 对 稀 政 表 示 求 解 的 促进 作用 ,引发 研究 者 对 字典 学 
习 算 法 的 大 量 研究 。2008 年 Candes 证 明了 如 果 随 机 正 交 模型 条 件 成 立 , 则 能 够 
以 高 概率 恢复 稀 朴 矩阵 ,从 而 从 理论 上 证 明 矩 阵 填充 (Matrix Completion) 的 可 解 
性 。 基 于 上 述 理论 的 证 明 , 目前 统计 稀 玻 学 习 已 经 广泛 应 用 在 信号 压缩 、 图 像 处 
理 、 模 式 识 别 .机 器 学 习 等 领域 。 
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第 一 步 ,模型 估计 
为 图 像 的 每 个 像素 估计 一 个 感受 时 模型 。 





第 二 步 :定义 图 像 
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(2) 用 感受 野 模 型 为 图 像 集 预测 大 脑 反 应 。 
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图 像 集 用 感受 野 模 型 对 图 像 集 预测 的 反应 值 
At 4T fei 
(3) 选择 与 测量 的 大 脑 反应 值 最 接近 的 预测 值 进行 标记 。 
图 1.1 Кау К.М. 对 图 像 识 别 的 建 模 过 程 
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1.1.3 贝 叶 斯 非 参数 方法 


贝 叶 斯 学 习 理 论 用 于 统计 学 习 领 域 是 近 几 年 发 展 起 来 的 最 重要 的 主流 研究 方 
向 ,是 目前 JMLR,NIPS,ICML 等 机 器 学 习 领 域 国际 重要 期 刊 与 会 议论 文 的 热点 
讨论 内 容 。 贝 叶 斯 学 习 理 论 将 先 验 知识 与 样本 信息 相 结 合 、 依 赖 关 系 与 概率 表示 
相 结 合 , 是 不 确定 知识 表示 的 理想 模型 ,尤其 是 贝 叶 斯 非 参 数 方法 所 表现 的 灵活 性 
引起 研究 者 的 广泛 关注 。 然 而 , 贝 叶 斯 非 参 数 方法 并 不 是 新 的 方法 , 早 在 1973 年 ， 
Ferguson 就 提出 了 以 带 有 无 限 维度 参数 空间 的 参数 模型 来 表示 先 验 的 贝 叶 斯 非 
参数 方法 。 但 由 于 推理 方法 不 成 熟 、 计 算 机 运算 速度 慢 等 原因 , 贝 叶 斯 非 参数 方法 
一 直 停 留 于 理论 研究 。 近 年 来 ,高 速 计算 机 的 快速 发 展 解 决 了 边缘 概率 积分 的 复 
杂 计 算 问 题 ,同时 , MCMC 方法 、EM 算法 ,以 及 关于 边缘 概率 计算 的 近似 算法 如 
变 元 推理 等 计算 方法 的 发 展 , 大 大 扩展 了 贝 叶 斯 非 参数 方法 的 应 用 领域 。2001 4E , 
Tipping 提出 了 “ 稀 朴 贝 叶 斯 学 习 (Sparse Bayesian Learning)” 的 概念 ,利用 层次 先 
Ji 7K PRA AA UL HFH E Br , 28 HH. Y Tü Bü BJ TE ЭС Та Bz #L EI >£ >J 77 Á cf 29 ETT S Bl 
^£ 5] y iE e t ГАЈЕ АШ. Wie E ЛИТЕ SCR # TF fü Bü 27 J 1 E: 
出 不 穷 , 并 在 文本 内 容 检 索 、 基 因数 据 分 析 、 计 算 机 视觉 等 领域 获得 应 用 。 结 合 贝 
叶 斯 非 参 数 方法 的 不 确定 性 知识 表达 形式 ,综合 先 验 知识 的 增 量 学 习 特性 和 非 参 
数 的 模型 灵活 性 ,研究 基于 贝 叶 斯 非 参 数 的 统计 稀 朴 学 习 方 法 的 独特 性 能 和 技术 
优势 ,并 在 应 用 中 对 其 模型 .方法 和 算法 性 能 进行 全 面 评 估 至 关 重 要 。 


1.1.4 统计 稀疏 学 习 方 法 的 视觉 应 用 


在 各 种 应 用 研究 中 ,视觉 任务 面临 的 往往 是 有 了 噪声、 高 维 , 大 批量 及 多 样 性 的 
数据 样本 ,而且 需 要 对 数据 内 容 进行 高 层次 、 结 构 性 的 语义 分 析 和 自动 注解 ,这 对 
当前 的 统计 学 习 方 法 提出 了 很 大 的 挑战 。 基 于 稀 朴 表达 的 视觉 应 用 近年 来 已 经 取 
得 了 一 些 研究 成 果 , 比 如 :人 脸 识 别 、 图 像 超 分 辩 率 、 图 像 降 品 .背景 建 模 .运动 分 割 
等 应 用 。 基 于 贝 叶 斯 非 参数 的 统计 稀疏 学 习 方 法 的 视觉 应 用 还 处 于 起 步 阶 段 ,但 

` 应 用 的 效果 却 让 人 印象 深刻 ,例如 ,图 1. 2 是 基于 贝 叶 斯 方法 学 习 的 分 类 字典 ,图 
1. 3 是 图 像 分 割 效果 ,图 1.4 是 基于 贝 叶 斯 非 参 数 方法 得 到 的 图 像 插值 效果 。 研 
究 统 计 稀 束 学 习 中 的 贝 叶 斯 非 参 数 方法 在 视觉 任务 中 的 应 用 对 于 全 面 评估 相应 方 
法 ` 模 型 和 算法 性 能 至 关 重 要 ,也 有 助 于 深入 理解 贝 叶 斯 非 参 数 统计 稀 朴 学 习 方 法 
的 理论 价值 ,并 为 结合 稀疏 表达 的 贝 叶 斯 非 参 数 统计 学 习 方 法 的 有 效 性 提供 了 很 
好 的 验证 平台 和 应 用 示例 。 
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图 1.3 图 像 分 割 效果 
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图 1.4 图 像 插值 效果 


综 上 所 述 ,基于 贝 叶 斯 非 参 数 的 统计 稀疏 学 习 方 法 是 人 工 智 能 ,应 用 统计 学 及 
视觉 认 知 等 学 科 交 又 的 研究 方向 ,也 是 当前 统计 学 习 领 域 的 最 新 研究 热点 之 一 ,已 
经 引起 了 国内 外 学 者 的 重点 关注 和 研究 兴趣 。 其 研究 成 果 不 仅 对 统计 学 习 的 理论 
研究 具有 重要 的 促进 作用 ,而 且 在 大 规模 数据 挖掘 .多 媒体 内 容 语义 分 析 、 视 觉 行 
为 自动 注解 .机 器 人 交互 等 各 种 应 用 领域 具有 巨大 的 技术 潜力 。 


1.2 国内 外 研究 现状 


1.2.1 统计 稀 朴 学 习 方 法 


统计 稀疏 学 习 方法 的 研究 起 源 于 多 个 研究 领域 的 成 果 :@ 来 源 于 神经 生物 学 
对 人 类 视觉 皮层 的 认 知 机 理 研究 ,这 为 机 器 学 习 提 供 了 生物 学 上 的 认 知 模型 借鉴 。 
@ 来 源 于 数学 等 领域 的 最 新 研究 进展 ,主要 包括 美国 Stanford 大 学 统计 系 的 
Donoho 和 Сапдёз .美国 UCLA 数学 系 的 陶 哲 轩 及 美国 RICE 大 学 的 Baraniuk 等 
人 在 压缩 感知 理论 和 稀 朴 信和 号 编码 方面 的 开创 性 工作 ,为 稀 朴 表达 提供 了 基本 的 
理论 依据 。@@ 来 源 于 凸 优化 理论 方面 的 研究 进展 ,主要 包括 Stanford 大 学 的 
Michael Saunders 等 开发 的 凸 优化 算法 ,为 稀 蚊 表达 的 约束 优化 求解 提供 了 理论 
支持 和 可 计算 方法 。 电 来 源 于 机 器 学 习 领 域 的 理论 研究 进展 ,主要 包括 美国 UC 
Berkeley 大 学 统计 系 的 M. І. Jordan WRH Stanford 大 学 统计 系 的 Trevor Hastie 
研究 组 等 ,近年 来 为 稀 朴 表达 与 统计 学 习 方 法 的 结合 提出 了 很 多 有 效 的 学 习 方 法 
与 计算 模型 。@ 计 算 机 视觉 领域 的 研究 者 ,包括 法 国 INRIA 的 Jean Ponce, 3 Eg] 
Stanford K BJ F. F Li, UIUC 的 MaYi 等 为 稀 朴 表达 在 计算 机 视觉 任务 上 的 应 
用 做 了 很 多 代表 性 的 工作 。 

统计 稀 朴 学 习 研 究 主 要 包括 三 个 方面 的 内 容 : 四 稀疏 建 模 , 即 研究 如 何 构造 稀 
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BUG zÇ ELA 3 BJ a Bu АЫ, O ü Bü >K ft BI ERT R ZE BJ Fi Bü RE , F 2š HH fn sk 
fft. QA ЛУ Н]. Fü BUE zÇ BS ЖУ зш E ЖЕШ E ТЕ Bz SE РУ D 26 080 BJ ЖН Е Д o 范 
Be 2^] EE T8 Ë: s II Fü Bü Ea ЖЫ BA] ЖЕЙ ШШ pr 2^] dš rti tü £5 77 1 SE Ж; h Bü ЛУ F2 BL 09 T 
Ж EB £| XJ RE BJ Йй Bü [B] ea УЭЕ ЖН ЛУ BJ LAE >J ERA. 4 BU j З BS PR LAE >J Jy 
ЖАЖА K EIR = 7r IB BS EAE , (Ñ же FE [B] АЙ о T5 ü Bu НЕ 2E ЧЕ ЖЕЛЕ >J ‚Н ЕШ 
Ж. F Bü Pa АЛ ЛЫ ЖШ AMA ER M ALTE SR. j EE ü Bü =é >J [п] LER же Z 
得 到 了 研究 者 的 关注 ,但 相应 的 理论 和 方法 还 有 待 研究 和 完善 。 

1) fü ü EAR OR fit 

Ж. ЖЕ Es WJ ЖЕ A ДЫ, ДЫ ЖЕ ТЕ Dl] 2 2 , BD 388 pP J 25 [я] AY #8 “ J БЕЛЛ” ЖП “ AE Т 
项 ”的 约束 优化 函数 来 实现 。 损 失 项 通常 采用 最 小 均 方 误差 函数 ,而 惩罚 项 通常 采 
用 范 数 约束 。 目 前 常用 的 稀 玻 构造 形式 包括 : 4 范 数 约束 、Lasso 方法 和 弹性 网 
(Elastic Net) 方 法 等 。 从 理论 上 说 , L, 范 数 约束 作为 惩罚 项 具有 最 优 的 稀疏 形式 ， 
但 1, 范 数 约束 对 应 NP 难题 ,通常 无 法 直接 求解 。Lasso 方法 采用 4 范 数 约束 代替 
L, 38 23 2] R RJ de Pb LA. HIT. Lasso 方法 用 回归 模型 系数 的 绝对 值 函 数 作为 惩 
罚 来 压缩 模型 系数 ,使 得 绝对 值 较 小 的 系数 自动 为 零 , 从 而 实现 模型 参数 选择 的 自 
SRR OVE. ERNI A RRA a 范 数 约 束 和 D, 范 数 约束 ,实现 对 Lasso 方法 的 
凸 松弛 ,从 而 得 到 较 "“ 温 和 ?的 稀 玻 模 型 ; 当 弹 性 网 方法 中 1, 范 数 惩罚 项 的 系数 为 
零 时 ,其 退化 为 Lasso 方法 。 在 一 些 特定 稀 踢 建 模 中 ,不仅 对 模型 系数 有 稀疏 性 要 
求 , 同 时 还 要 求 为 非 负 。 比 如 图 像 像素 值 的 生成 ,可 以 在 Lasso 方法 或 者 弹性 网 方 
法 的 基础 上 ,增加 对 模型 系数 的 非 负 约束 , 非 负 约束 的 模型 来 源 于 Nonnegative 
Garrote 方法 。 在 上 述 几 种 模型 的 基础 上 ，Yuan 和 Lin 等 提出 了 Group-Lasso J 
法 用 于 处 理 结构 性 稀 玻 建 模 ,考虑 结构 性 稀 疏 建 模 的 其 他 工作 还 包括 Bach, 
Huang 等 提出 的 方法 。 

上 述 几 种 稀 玻 模型 构成 了 典型 的 凸 优化 问题 ,因此 能 够 采用 相应 的 凸 优 化 算 
法 求解 。 需 要 注意 的 是 ,对 于 Lasso 方法 ,由 于 4 范 数 构造 的 约束 是 不 可 微 的 ,这 
为 凸 优化 问题 的 求解 带 来 了 困难 。 针 对 此 问题 ,很 多 研究 者 提出 了 有 效 的 求解 策 
略 ,典型 方法 包括 内 点 法 (Interior Point Algorithms)、 最 小 角度 回归 算法 (Least 
Angle Regression, LARS) 正 交 匹配 追踪 (Orthogonal Matching Pursuit, OMP), 
坐标 梯度 下 降 (Coordinate Gradient Descent, CGD) 、 块 坐标 梯度 下 降 (Block- 
Coordinate Gradient Descent, BCGD) 等 。 

2) Bú ee AE 75 1s 

Ж ЕЕЕ Ja — p Ж Йй Bü i RB Е W , ДЕ UE Ж] at Së # = Ж COvercomplete 
Dictionary) Ж 4 T ff B° 27 J£ 3& fi TT НО Fc Яй e 5 .— FH T LAE 3 BJ 8 B £ #E , HE 
基 函 数 的 选择 并 不 需要 采用 传统 的 正 交 基 ( 傅 里 叶 基 、 小 波 基 等 ) ,而 是 可 直接 选 自 
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图 像 .视频 样本 中 的 原始 信息 或 特征 表达 ,这 在 视觉 识别 .图 像 分 类 等 应 用 中 能 够 
有 效 构造 基于 内 容 或 语义 的 信息 表达 。 目 前 提出 的 稀 玻 降 维 方法 是 通过 对 传统 降 
维 方 法 一 一 主 元 分 析 法 (PCA ) 增 加 稀 豆 性 约束 实现 的 , 主 元 分 析 和 主 坐 标 分 析 
(PCO) 是 统计 学 习 方 法 中 两 个 重要 的 无 监督 降 维 技术 ,它们 互 为 对 偶 问 题 。 因 为 
主 元 分 析 降 维 后 的 主 元 包含 了 所 有 原始 变量 的 线性 组 合 ,难以 推断 主 元 与 原始 变 
量 之 间 的 关系 ,如 果 主 元 只 与 很 少 的 原始 变量 相关 , 则 在 实际 应 用 中 可 以 为 主 元 与 
原始 变量 间 建 立 更 易 解 释 的 关系 。 稀 蕉 主 元 分 析 (sPCA) 通 过 增加 对 负荷 
(loadings) 的 稀 玖 约束 ,比如 采用 Lasso 方法 或 者 弹性 网 方法 ,构造 负荷 的 自然 稀 
玖 性 。 目 前 的 稀 豆 降 维 方法 包括 两 类 ,一 类 基于 最 大 主 元 的 协 方差 性 质 , 比 如 
Jolliffe 等 提出 的 SCoTLASS, Shen 等 提出 的 sPCA-rSVD 等 ; 另 一 类 则 是 Zou 等 
提出 的 基于 回归 问题 的 УРСА 方法 。Zass SES ЕАО АЕ. AA TIERA 
束 , 提 出 了 非 负 主 元 分 析 nsPCA ,Jenatton 在 考虑 变量 结构 性 的 条 件 下 提出 了 结 
HI ip iit FE 7621 Ht (ssPCA) « 

3) # it FEE Ab TE 

ЖИЙ Bü 2^] Ж B] AB [e ЖЇН] де Ur AE Ж B5] 2 # e, [a] ë! [н] Ай в КЖ + 
推荐 系统 研究 ,但 在 机 器 学 习 和 视觉 应 用 中 仍然 具有 广泛 的 应 用 价值 。 和 矩阵 补充 
通常 假设 矩阵 低 秩 或 近似 低 秩 ,并 在 只 有 少量 观察 的 情况 下 ,要 求 恢 复 和 矩阵 的 原始 
信息 ,当前 有 代表 性 的 工作 包括 Candes 等 提出 的 近似 最 优 矩 阵 补 充 方法 和 精确 
an Me kh FETT HEL Cai 等 提出 的 SVT(Singular value thresholding) 算法 ,以 及 
Raghunandan 45 ЊН AY JA 48 7 WLS 39i rp iE TAB EE AD FE 7I AE o (КРКЕ Е JE I8] gn 
主要 通过 建立 最 小 化 目标 和 矩阵 的 秩 并 求解 相应 的 约束 优化 问题 。Mazumder 提出 
采用 谱 正 则 化 算法 (Spectral regularization algorithms) 求 解 和 矩阵 补充 问题 。Cai 和 
Candés 等 提出 采用 核 范 数 (Nuclear norm) 惩 罚 项 作为 秩 约束 的 凸 松弛 条 件 求解 。 
但 上 述 两 种 方法 在 收敛 速度 和 恢复 精度 上 都 无 法 同时 保持 高 效 。 目 前 ,和 矩阵 补充 
问题 的 研究 还 在 发 展 ,尤其 是 对 于 大 和 矩阵 求解 时 的 计算 效率 ,以 及 当 观 察 矩 阵 附 带 
噪声 时 的 求解 等 问题 都 尚 待 研究 。 

Zt YF Tü Bü =£ >J Jy V XE FR ZE RS Bü 2^] RH B E OD TE ,在线 字典 学 习 ‚ЖЕ Ж Bü FE 
а 7r Wit — Т НО DEE И. Jü R: ЖЕТЕ ЕЛЕ >J 77 1 BJ FH 2 I «AR ЭХ Ж 
做 了 许多 探索 性 的 尝试 ,并 取得 初步 的 研究 成 果 , 代 表 性 的 应 用 包括 人 脸 识 别 、 图 
像 超 分 辨 率 、 图 像 降 噪 、 背 景 建 模 、 运 动 和 数据 分 割 及 图 像 分 类 等 。2009 年 Francis 
Bach 和 计算 机 视觉 领域 的 著名 学 者 Jean Ponce 等 合作 ,在 ICCV 国际 会 议 上 对 稀 
疏 编 码 和 字典 学 习 用 于 图 像 分 析 做 了 系统 介绍 ,MaYi 等 从 计算 机 视觉 和 模式 识 
别 的 角度 也 对 当前 的 稀 朴 表达 及 其 应 用 做 了 简介 。 

目前 国内 对 统计 稀 豆 学 习 方 法 的 研究 也 日 渐 广泛 ,国内 研究 者 在 视觉 认 知 的 
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编码 机 制 、 压 缩 感知 、 稀 玖 表示 ,字典 学 习 、 和 矩阵 分 解 等 的 相关 理论 与 应 用 方面 取得 
了 很 多 重要 的 研究 成 果 。 复 旦 大 学 的 俞 洪波 教授 等 从 神经 生理 学 角度 对 视觉 通路 
的 信息 编码 机 制 进行 研究 ,南京 大 学 的 周志 华 教授 、 浙 江 大 学 的 张志华 教授 等 从 统 
计 学 习 的 角度 对 稀 朴 学 习 方 法 进行 了 研究 。 在 应 用 研究 方面 , 杨 谦 建立 了 一 个 基 
于 超 定 完备 基 的 简单 细胞 集群 稀疏 表示 的 计算 模型 ,实现 了 自然 图 像 的 稀 朴 编码 。 
中 国 科学 院 计算 技术 研究 所 李 清 勇 博士 设计 了 面向 知觉 任务 的 稀 玻 编码 模型 ,并 
扩展 了 单 层 的 基于 ICA 算法 的 稀 朴 编码 模型 。 更 多 的 研究 集中 于 以 养 波 .曲线 波 
为 主线 的 理论 分 析 及 应 用 、 匹 配 追 踪 算法 在 图 像 处 理 方面 的 具体 应 用 、 稀 玖 编码 算 
法 在 图 像 处 理 和 图 像 识 别 中 的 应 用 等 。 


1.2.2 贝 叶 斯 非 参数 方法 


贝 叶 斯 非 参数 模型 为 非 参 数 模 型 选择 和 自 适 应 提供 了 一 个 贝 叶 斯 框架 。 然 而 
贝 叶 斯 和 非 参 数 方法 的 结合 充满 了 挑战 ,因为 贝 叶 斯 模型 需要 明确 假设 一 个 在 给 
定 参 数 空间 上 的 概率 分 布 , 而 非 参 数 模型 则 根据 样本 数据 改变 参数 空间 的 维度 。 
1973 Æ, Ferguson 在 可 数 样本 空间 上 近似 贝 叶 斯 估计 的 基础 上 ,提出 了 狄 利克 雷 
过 程 。 一 方面 ,既然 非 参数 模型 需要 一 个 不 受 参数 数量 限制 的 先 验 , 那 么 它 可 以 被 
看 作 是 带 有 无 限 维度 参数 空间 的 参数 模型 ; 另 一 方面 , 贝 叶 斯 模型 可 以 通过 参数 分 
布 来 定义 ,这 个 参数 分 布 有 无 限 维度 的 参数 空间 。 这 种 模型 通常 称 为 “ 贝 叶 斯 非 参 

目前 ,最 常见 的 贝 叶 斯 非 参 数 模型 有 高 斯 过 程 (Gaussian process) 模 型 和 狄 利 
克 雷 过 程 (Dirichlet process) 模 型 。 高 斯 过 程 是 传统 的 多 变量 高 斯 分 布 由 向 量 到 
函数 的 自然 扩展 ,其 精练 的 协 方差 函数 结构 能 极 大 地 降低 函数 数据 分 析 中 的 参数 
估计 任务 。 早 在 20 世纪 七 八 十 年 代 ,高 斯 过 程 就 已 经 以 Kriging 的 名 义 应 用 于 地 
理 统计 学 领域 中 ,但 直到 90 年 代 中 期 ,经 过 Neal, Gibbs 和 MacKay 等 人 对 高 斯 
过 程 的 阐述 和 发 展 , 高 斯 过 程 才 受 到 人 们 的 重视 ,开始 研究 应 用 于 机 器 学 习 领 域 ， 
并 在 各 应 用 领域 迅速 成 为 研究 的 热点 。 

狄 利克 雷 过 程 的 理论 研究 在 20 世纪 70 年 代 是 众多 研究 者 关注 的 热点 ,研究 
者 们 对 狄 利克 雷 过 程 的 构造 方法 、 狄 利克 雷 过 程 的 性 质 、 后 验 计算 方法 展开 了 大 量 
的 理论 研究 。 但 由 于 其 需要 大 规模 的 迭代 计算 , 狄 利克 雷 过 程 的 应 用 一 直 没 有 突 
破 性 进展 。2003 年 以 来 ,高 速 计算 机 的 快速 发 展 解决 了 边缘 概率 积分 的 复杂 计算 
问题 ,同时 ,得 益 于 MCMC 方法 、EM 算法 、 变 分 方法 等 的 研究 , 狄 利克 雷 过 程 的 
应 用 研究 迅速 发 展 , 成 为 当前 机 器 学 习 领 域 的 热点 。 

对 贝 叶 斯 非 参数 方法 的 研究 主要 集中 在 两 个 方面 :模型 研究 和 应 用 研究 。 贝 
叶 斯 非 参数 方法 以 无 限 维度 空间 中 的 随机 过 程 为 研究 对 象 ,其 理论 研究 包括 建 模 
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的 方法 .模型 的 性 质 、 模 型 的 推导 和 演绎 等 ;而 应 用 方面 的 研究 主要 针对 特定 的 问 
题 ,研究 相 适 应 的 贝 叶 斯 非 参数 学 习 策 略 。 

1) 模 型 研究 

贝 叶 斯 非 参 数 方法 需要 对 无 限 维度 空间 中 的 测度 进行 建 模 ,但 在 有 限 维 空间 
中 与 Lebesgue 测度 相关 的 密度 ,如 高 斯 概率 密度 、 狄 利克 雷 分 布 等 ,不 能 直接 扩展 
到 无 限 维 空间 ,需要 寻找 适合 的 方法 构建 贝 叶 斯 非 参 数 模型 。Ferguson 通过 观察 
发 现 ,既然 非 参 数 模型 需要 一 个 不 受 参数 数量 限制 的 先 验 , 那 么 可 以 把 它 看 作 带 有 
无 限 维 度 参数 空间 的 参数 模型 , 贝 叶 斯 模型 通过 这 种 参数 分 布 来 定义 ,就 得 到 贝 叶 
斯 非 参 数 模 型 。 

对 于 贝 叶 斯 非 参 数 模型 的 构造 ,研究 者 提出 多 种 方法 ,主要 有 基于 随机 过 程 的 
方法 、 基 于 De Finetti 理论 的 方法 、 基 于 Kolmogorov 扩展 理论 的 方法 等 。 这 些 方 
法 并 不 是 相互 之 间 完 全 排他 的 ,例如 狄 利 克 雷 过 程 可 以 通过 多 种 方法 构造 。 

随机 过 程 方 法 通常 适用 于 生成 实数 线 上 或 实数 区 间 上 的 随机 概率 分 布 ,通过 
随机 过 程 的 非 负 增 量 路 径 来 采样 ,从 而 描绘 累积 分 布 函 数 。 其 中 ,最 典型 的 例子 是 
Lévy 过 程 , 它 是 一 个 递增 的 过 程 ,其 包含 的 随机 变量 在 一 段 时 间 上 的 概率 只 与 时 
间 段 的 长 度 有 关 。Levy 过 程 在 贝 叶 斯 非 参数 中 有 广泛 的 应 用 ,其 后 验 在 标准 化 之 
后 得 到 Gamma 过 程 。 另 外 ,基于 随机 过 程 的 贝 叶 斯 非 参 数 模型 还 有 Griffin 的 随 
机 微分 方程 定义 的 过 程 、Kiichler 以 时 间 为 参数 定义 具有 指数 形式 的 似 然 函 数 的 
随机 过 程 等 。 

De Finetti 理论 阐述 了 在 给 定 一 系列 参数 的 条 件 下 ,变量 之 间 是 条 件 独 立 的 。 
而 对 于 连续 的 采样 空间 ,这 些 参数 是 无 限 维 的 。Hewitt 和 Savage 证 明了 对 于 一 个 
给 定 的 随机 变量 序列 ,它们 的 混合 分 布 是 唯一 的 。 定 义 一 个 无 限 的 可 交换 的 随机 
变量 序列 ,可 以 通过 指定 一 个 生成 算法 来 保证 可 交换 性 。 例 如 , Blackwell 和 
MacQueen 通过 生成 模型 的 混合 分 布 来 构建 狄 利克 雷 过 程 , 称 为 无 限 Pólya Urn 
TIL iil 。 

Kolmogorov 扩张 定理 直接 从 有 限 维度 空间 的 边缘 分 布 构建 无 限 维度 空间 中 
的 测度 ,是 Ferguson 构建 狄 利克 雷 过 程 的 理论 基础 。Ferguson 证 明了 狄 利克 雷 过 
程 先 验 能 够 满足 非 参数 贝 叶 斯 分 析 的 两 个 基本 要 求 :@ 在 适当 的 拓扑 下 , 先 验 分 布 
的 支撑 要 足够 大 ;@ 给 定 样本 后 ,后 验 分 布 要 便于 计算 。 狄 利克 雷 过 程 的 支撑 是 可 
测 空间 上 的 所 有 离散 概率 分 布 组 成 的 集合 ,同时 , 它 的 后 验 分 布 是 容易 计算 的 ,可 
表示 成 先 验 与 经 验 分 布 的 混合 。 

狄 利克 雷 过 程 的 性 质 是 狄 利 克 雷 分 布 的 性 质 向 无 限 维 空间 扩展 的 结果 。 
Ferguson 在 提出 狄 利克 雷 过 程 的 同时 对 狄 利 克 雷 过 程 的 诸多 性 质 进行 了 证 明 ,这 
葛 定 了 狄 利克 雷 过 程 的 重要 理论 基础 。Orbanz 着 重 从 边缘 分 布 的 角度 对 狄 利克 
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雷 过 程 的 性 质 进行 阐述 ,强调 了 狄 利克 雷 过 程 的 合并 过 程 。2010 年 ,Subhashis 对 
狄 利克 雷 过 程 的 性 质 进行 了 比较 全 面 的 总 结 。 在 阐述 和 证 明 狄 利克 雷 过 程 性 质 过 
P. Dubins 和 Pitman JR # $K Fil s $8 1 fe A £ Ji zÑ Efe BJ JE gu TE , e tH “ nn Es] £ 
TE at f£ (Chinese Restaurant Process)”, 在 不 限定 类 别 数 量 的 前 提 下 对 数据 的 聚 类 
特性 进行 描述 。 

2) 贝 叶 斯 非 参 数 模 型 的 应 用 研究 

近年 来 , 贝 叶 斯 非 参数 模型 被 应 用 于 多 种 问题 ,例如 回归 、 分 类 、 聚 类 、 隐 变量 
模型 ,序列 模型 ,图 像 分 割 ,信号 分 离 和 语法 归纳 等 ,其 中 LDA (Laten dirichlet 
allocation) 模 型 是 最 典型 也 是 最 成 功 的 贝 叶 斯 非 参 数 模 型 的 应 用 。 其 在 自然 语言 
和 智能 信息 处 理 中 充分 发 挥 了 贝 叶 斯 非 参数 在 无 限 维度 空间 建 模 的 优点 。 模 型 将 
主题 混合 权重 视 为 多 维 参 数 的 潜在 随机 变量 ,推理 上 采用 Laplace 近似 、 变 分 近 
似 、MCMC(Markov chain Monte Carlo) ke“ Hj 8-H" В (expectation propagation)” 
等 方法 获取 待 估 参 数值 ,在 自然 语言 的 词性 标注 .主题 分 解 、 信 息 抽 取 等 方面 取得 
广泛 应 用 。 狄 利克 雷 过 程 在 生物 信息 处 理 中 也 获得 了 令 人 惊叹 的 效果 ,例如 在 
DNA 排序 技术 中 对 单 倍 体型 分 期 (haplotype phasing) 用 层次 狄 利克 雷 过 程 建 模 ， 
从 而 提高 了 长 片段 测序 能 力 。 对 语音 的 识别 是 狄 利 克 雷 过 程 的 另 一 应 用 领域 ,以 
“层次 狄 利克 雷 过 程 - 隐 马 尔 可 夫 模 型 建 模 的 “说话 人 检索 (Speaker Diarization)” 
可 以 在 复杂 的 环境 中 快速 识别 说 话 者 。 

Sudderth, Li 和 Paisley 等 对 狄 利克 雷 过 程 在 计算 机 视觉 中 的 应 用 进行 了 一 
定 的 探索 。Sudderth 采用 Piteman-Yor 过 程 实现 了 对 图 像 的 分 割 和 标注 ,并 利用 
高 斯 过 程 对 Piteman-Yor 过 程 的 空间 独立 性 进行 描述 。Li 利用 LDA 对 自然 图 像 
进行 注解 ，Paisley 等 首次 利用 * 贝 努 利 -贝塔 过 程 ” 描 述 字 典 学 习 并 将 其 应 用 在 图 
像 降 品 .图像 插 值 等 方面 ,尽管 效果 差强人意 ,但 为 图 像 处理 提 供 了 新 的 方法 和 解 
决 思路 。 

国内 对 于 贝 叶 斯 非 参 数 方法 的 理论 研究 主要 集中 在 20 世纪 90 年 代 中 期 , 主 
要 对 狄 利克 雷 过 程 的 性 质 、Lévy 表示 ` 右 中 立 过 程 等 进行 了 分 析 和 阐述 。 然 而 对 
贝 叶 斯 非 参 数 模型 的 应 用 研究 尚 处 于 起 步 阶 段 , 目 前 鲜 有 对 贝 叶 斯 非 参 数 模型 在 
应 用 研究 中 的 综述 文献 ,对 贝 叶 斯 非 参数 中 狄 利克 雷 过 程 、 贝 塔 过 程 等 构造 方法 的 
相关 研究 和 应 用 也 吸 待 发 展 。 目 前 国内 相关 研究 的 论文 ,有 卿 湘 运 等 结合 狄 利克 
雷 过 程 混 合 模型 和 选择 特征 子 集 的 非 参 数 模 型 ,设计 了 基于 马尔 可 夫 链 蒙特 卡 罗 
的 参数 后 验 推断 算法 ,并 将 其 应 用 于 人 脸 聚 类 问题 。 
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自从 Ferguson 在 1973 年 提出 以 带 有 无 限 维度 参数 空间 的 参数 模型 来 表示 先 
验 的 方法 后 ,涌现 了 大 量 的 构建 贝 叶 斯 非 参 数 模型 的 方法 。 正 是 基于 这 些 不 同 的 
模型 构建 方法 , 贝 叶 斯 非 参数 过 程 得 以 广泛 地 应 用 在 聚 类 .回归 、 变 量 选择 等 问题 
中 。 本 章 首先 介绍 贝 叶 斯 非 参 数 的 理论 基础 ,在 此 基础 上 ,分 析 比 较 贝 叶 斯 非 参数 
模型 的 几 种 构建 方法 ,再 针对 稀 玻 表示 ,对 具有 稀 朴 特质 的 贝 叶 斯 非 参数 过 程 的 构 
建 和 推理 方法 进行 演绎 ,为 全 文 的 研究 提供 基本 的 方法 。 


2.1 符号 约定 


本 书 对 有 关 概 率 模型 和 随机 变量 的 符号 约定 如 下 : 

随机 变量 定义 在 一 个 普通 、 抽 象 的 概率 空间 CA ALP) 中 ,其 中 A 是 一 个 非 空 
н 有 时 称 为 样本 空间 , А 是 c -代数 , P 是 概率 或 概率 测度 。 随 机 变量 可 以 从 这 

普通 的 概率 空间 映射 到 相应 的 采样 空间 。 随 机 变量 用 X 表示 ,采样 空 Wa 
i c КОСАН ЛУ BJ BDL AE BE EDS Е. folu. ИЛЛЕ X: (CA. A) 一 
A.) , 其 中 О, 是 随机 变量 X 的 采样 空间 , X 在 采样 空 двар АВ аа. 

Вх AR. 

对 于 有 特定 用 途 的 变量 ,约定 用 X 表示 观测 变量 , 9 表示 参数 变量 ,Y 表示 超 
参数 .任意 的 c- 代数 用 A,C 等 表示 ,但 好 表示 Borel o- 代数 。 随 机 变量 X 的 概率 测 
度 ин = X(P)。 对 于 同一 上 下 文中 的 多 个 随机 变量 ,测度 用 随机 变量 作为 索引 
标注 ,例如 px ,pe o 

条 件 概率 记 为 uX | Ө), 在 运算 过 程 中 ,根据 上 下 文 , X 可 能 被 测度 集合 代 
替 ,@ 可 能 被 c- 代数 代替 。 概 率 空 间 4 中 的 元 素 用 w 表示 , 则 把 条 件 概 率 看 作 函 数 
的 话 ,可 表示 为 x(X | Ow). WAR WX | Ө) 有 条 件 密度 , 则 记 为 p(x | 0) ,字母 ; 
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通常 表示 充分 统计 量 , S: = s( X) 是 随机 变量 。 期 望 用 上 表示 ,条 件 期 望 表示 为 
ELX | C]. 期望 也 可 以 用 随机 变量 或 测度 进行 索引 标注 ,例如 Ех[. ], E, ue L * 1, 

为 避免 混淆 ,一 般 地 ,小 写 斜 体 表示 标量 ,如 wi,t; 等 ;小 写 粗 体 表示 向 量 ,如 xx， 
w 等 ;而 大 写 粗 斜体 或 大 写 希腊 字母 表示 矩阵 ,如 4, 更 ,号 等 。 此 外 ,大 写 PC) KR 
示 离 散 的 概率 分 布 函 数 ,而 小 写 рсе) 则 是 连续 的 概率 分 布 函数 。 


2.2 贝 叶 斯 非 参数 模型 


一 个 典型 的 统计 问题 可 以 描述 如 下 :首先 进行 一 系列 的 随机 试验 ,收集 样本 数 
据 , 再 对 样本 数据 进行 分 析 ,总 结 , 然 后 进行 推断 和 预测 ,为 相关 决策 提供 依据 和 参 
考 。 在 这 个 描述 中 ,收集 样本 数据 ,并 对 数据 进行 分 析 和 总 结 属于 描述 统计 研究 的 
范畴 ,而 推断 统计 是 研究 如 何 根据 样本 数据 去 推断 总 体 数量 特征 的 方法 , 它 是 在 对 
样本 数据 进行 描述 的 基础 上 ,对 统计 总 体 的 未 知 数量 特征 做 出 以 概率 形式 表述 的 
推断 。 

在 推断 过 程 中 ,如 果 对 总 体 分 布 假设 的 概率 模型 可 以 用 一 系列 参数 表示 AK 
型 的 参数 数量 不 依赖 于 观测 数据 的 数量 , 则 这 个 模型 是 参数 模型 。 非 参数 模型 用 
一 种 特别 的 方法 来 选择 模型 和 调整 自 适 应 性 ,模型 的 尺寸 随 着 采样 的 尺寸 增 大 而 
增加 。 例 如 ,参数 方法 进行 密度 估计 意味 着 通过 最 大 似 然 选择 一 个 高 斯 或 者 固定 
数目 的 混合 高 斯 。 而 非 参 数 方法 是 用 一 个 Parzen Window 估计 器 , 它 对 于 每 个 观 
测 值 集中 于 一 个 高 斯 ,因此 每 个 观测 值 有 一 个 均值 参数 。 

参数 模型 和 非 参数 模型 最 基本 的 不 同 之 处 是 参数 模型 倾向 于 有 更 加 理论 化 的 
保证 和 更 快 的 收敛 速度 ,而 非 参 数 模型 更 适应 于 需要 模型 自 适 应 性 强 的 问题 。 非 
参数 方法 在 经 典 统计 ( 非 贝 叶 斯 ) 中 已 经 流行 已 入 ,尽管 非 参 数 模型 的 理论 结果 与 
参数 模型 相 比 很 难 证 明 ,但 它们 在 应 用 中 的 效果 让 人 印象 深刻 。 

贝 叶 斯 模型 把 参数 看 作 随 机 变量 ,模型 为 每 个 参数 假设 一 个 概率 分 布 ,这 些 概 
率 分 布 由 样本 数据 来 确定 。 贝 叶 斯 和 非 参 数 方法 结合 充满 了 挑战 ,因为 贝 叶 斯 模 
型 需要 明确 假设 一 个 在 给 定 参数 空间 上 的 概率 分 布 ,而 非 参 数 模 型 根据 样本 数据 
改变 参数 空间 的 维度 。Ferguson 通过 观察 到 如 下 结果 并 解决 了 这 个 问题 :既然 非 
参数 模型 需要 一 个 不 受 参数 数量 限制 的 先 验 ,那么 它 可 以 被 看 作 带 有 无 限 维 度 参 
数 空间 的 参数 模型 ; 贝 叶 斯 模型 可 以 通过 参数 分 布 来 定义 ,这 个 参数 分 布 有 无 限 维 
度 的 参数 空间 。 这 种 模型 现在 通常 称 为 贝 叶 斯 非 参 数 模型 。 

定义 2.1:( 贝 叶 斯 非 参 数 模型 ) 一 个 采样 模型 为 uX | Ө) 、 先 验 分 布 为 
poo CO) 的 贝 叶 斯 模型 如 果 满 足 : 存 在 一 个 数 mw € М, 使 得 每 个 额外 的 观测 最 多 需要 
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参数 空间 中 no 个 额外 的 参数 , 且 任 意 观测 序列 (xí. ,x,) 的 参数 数量 的 期 望 值 是 
随 着 ”的 增加 而 单调 递增 的 ,那么 这 个 贝 叶 斯 模型 是 贝 叶 斯 非 参数 模型 。 

这 个 模型 有 足够 数量 的 参数 来 解释 任意 一 个 采样 ,这 也 是 定义 无 限 维 模型 的 
基本 原因 。 如 果 一 个 非 参数 贝 叶 斯 模型 有 无 限 个 参数 ,那么 它 就 可 以 解释 任意 给 
定 尺 寸 的 采样 。 为 采样 尺寸 设置 一 个 “无 限 ” 的 限制 是 为 了 在 不 修改 模型 的 前 提 下 
研究 模型 的 渐 近 行为 。 几 乎 所 有 的 贝 叶 斯 非 参数 模型 都 是 无 限 维 的 模型 。 

贝 叶 斯 非 参 数 模型 为 非 参数 模型 选择 和 自 适 应 提供 了 一 个 贝 叶 斯 框架 。 它 在 
一 个 无 限 维度 的 参数 空间 中 ,只 调用 参数 的 一 个 有 限 子 集 , 这 个 子 集 通常 随 着 数据 
集 的 增加 而 扩大 。 在 贝 叶 斯 非 参数 模型 的 上 下 文中 无限 维度 "可 以 翻译 为 “有限 
的 但 无 界 的 维度 "”。 贝 叶 斯 非 参数 模型 的 关键 特征 是 能 够 解释 局 部 观测 ,一 次 采样 
涉及 的 参数 只 是 模型 参数 的 一 个 子 集 。 

定义 2.2:( 局 部 观测 )X 是 一 个 有 多 参数 的 随机 变量 , 它 的 值 在 如 下 乘积 结构 
的 空间 中 ` 

a’ = Цо (3. 1) 
其 中 , O 是 任意 的 部 分 空间 。 对 于 任意 TE E, 了 中 元 素 的 局 部 乘积 表示 为 O., DU 
受 限 变量 X = X |а 的 一 个 观测 值 。 

在 贝 叶 斯 非 参 数 模型 中 ,局 部 观测 X" 通常 表示 为 有 限 的 观测 集合 (xw. 
х). I WJ JN SF B8 38 n 的 增加 而 增 大 。 

贝 叶 斯 非 参 数 模型 和 贝 叶 斯 参数 模型 之 间 的 区 别 在 于 估计 的 过 程 如 何 影响 模 
型 的 维度 。 贝 叶 斯 参数 模型 丢弃 了 没有 被 采样 数据 提 及 的 维度 ,而 贝 叶 斯 非 参 数 
模型 保留 所 有 的 维度 ,并 在 先 验 假设 中 假设 那些 不 能 被 观测 数据 估计 的 参数 。 例 
如 ,一 个 采样 尺寸 为 n 的 Parzen 估计 有 个 精确 的 本 地 参数 ,如 果 贝 叶 斯 非 参 数 
模型 的 先 验 假设 参数 维度 为 4, а 可 能 是 有 限 的 也 可 能 是 无 限 的 ,那么 不 管 采样 尺 
寸 如 何 ,一 定 会 估计 一 个 d 维 的 后 验 。 

根据 定义 2. 1 和 定义 2.2, 贝 叶 斯 非 参 数 模型 可 以 描述 为 具有 如 下 两 个 特征 
的 模型 : 

(1) 在 一 个 无 限 维 度 的 参数 空间 上 构造 一 个 贝 叶 斯 模型 ; 

(2) 可 以 通过 有 限 采 样 进行 求解 ,求解 的 方法 是 只 用 所 有 可 能 解 的 一 个 有 限 子 

近年 来 , 贝 叶 斯 非 参 数 模型 以 其 灵活 性 获得 广泛 的 关注 ,这 种 关注 尤其 表现 在 
非 监督 学 习 中 。 贝 叶 斯 非 参 数 模型 的 灵活 性 一 方面 是 模型 的 表现 (参数 的 个 数 、 参 
数 的 结构 ) 能 够 随 着 观测 数据 的 增加 而 增加 , 另 一 方面 ,模型 中 先 验 和 后 验 的 分 布 
不 是 参数 分 布 ,而 是 随机 过 程 。 贝 叶 斯 非 参 数 模型 被 应 用 于 多 种 问题 ,例如 回归 、 
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分 类 、 聚 类 、 隐 变量 模型 .序列 模型 .信号 分 离 和 语法 归纳 等 。 
2.3 相关 理论 基础 


贝 叶 斯 非 参 数 模型 需要 无 限 维度 空间 中 的 测度 ,那么 首要 的 问题 是 这 样 的 测 
度 是 否 存在 ,如 果 存 在 ,有 多 少 这 样 的 测度 。 有 限 维度 空间 中 的 高 斯 可 以 写成 一 个 
封闭 的 形式 , 即 与 Lebesgue 测度 相关 的 密度 。 但 因为 Lebesgue 测度 不 能 扩展 到 
无 限 维 室 间 ,所 以 高 斯 不 能 直接 扩展 到 无 限 维 室 间 。 其 他 的 无 限 维 模型 也 同样 不 
能 给 出 密度 表示 (包括 狄 利克 雷 过 程 ), 需 要 寻找 其 他 的 表示 方法 构建 贝 叶 斯 非 参 
数 模型 。 

自从 狄 利克 雷 过 程 在 1973 年 被 提出 以 来 ,多 种 不 同 原理 的 贝 叶 斯 非 参数 模型 
的 构造 方法 被 提出 ,例如 基于 随机 过 程 Ое Finetti 理论 .Kolmogorov 扩展 理论 等 。 
但 这 些 理论 之 间 并 不 是 完全 互 斥 的 ,一 个 非 参 数 过 程 可 以 通过 多 种 理论 演绎 构造 
方法 ,例如 狄 利克 雷 过 程 。 这 些 理论 是 分 析 和 研究 贝 叶 斯 非 参 数 模型 构造 方法 的 
基础 ,本 节 对 其 进行 简单 介绍 ,相关 的 定理 在 任何 测度 论 的 书籍 中 都 可 以 找到 , 因 
此 本 节 不 对 其 进行 证 明 。 


2.3.1 随机 过 程 方法 


在 概率 论 中 ,与 确定 性 过 程 随时 间 演 变 只 有 一 个 可 能 的 路 径 不 同 , 随 机 过 程 中 
存在 一 些 未 来 演变 的 不 确定 性 ,这 种 不 确定 性 由 概率 分 布 来 描述 。 即 使 初始 条 件 
是 已 知 的 ,随机 过 程 也 有 多 种 演变 的 路 径 , 只 是 有 些 路 径 的 概率 更 高 ,有 些 路 径 的 
概率 更 低 。 

随机 过 程 方 法 通常 适用 于 生成 实数 线 上 或 实数 区 间 上 的 随机 概率 分 布 ,通过 
随机 过 程 的 非 负 增 量 路 径 来 采样 ,从 而 描绘 累积 分 布 函数 (CDF)。 例 如 ,Ferguson 
给 出 在 区 间 Lab | 上 的 狄 利 克 雷 过 程 的 定义 ,通过 如 下 步骤 生成 CDF; 

(1) 通 过 在 区 间 [а,Ь] 上 的 Gamma 过 程 采样 路 径 来 生成 随机 函数 f s 

(2) 对 了 了 进行 标准 化 7Cz): = 105, 

通常 ,CDF 得 到 的 结果 往往 与 实际 结果 有 很 大 偏差 ,人 们 更 希望 得 到 概率 密 
度 函 数 , 但 СОЕ 是 递增 的 ,能够 反映 区 间 的 局 部 特征 。 例 如 ,Levy 过 程 是 最 典型 
的 独立 的 递增 过 程 , 其 在 贝 叶 斯 非 参 数 中 有 广泛 的 应 用 。Levy 过 程 得 到 的 后 验 在 
标准 化 之 后 得 到 Gamma 过 程 。 
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2.3.2 De Finetti 定理 


可 交换 性 是 贝 叶 斯 非 参数 模型 重要 的 理论 基础 。 同 一 概率 空间 (Л.А) 中 有 
NN 个 随机 变量 六 , ,X,,… Ху, 如果 这 些 随 机 变量 的 联合 分 布 与 变量 在 序列 中 的 
位 置 无 关 , 则 这 个 变量 序列 是 可 交换 的 , 即 
PON, i Ky) = рОХ aima ais ) (2. 2) 
其 中 r(。) 表示 对 索引 号 的 任意 排列 。 
当 N оо 时 ,对 于 变量 序列 Х,,Х,,---, 如 果 对 于 任意 NIIS Xe, Xy 是 
可 交换 的 , 则 这 个 无 穷 的 变量 序列 也 是 可 交换 的 。 即 无 穷 变 量 序列 的 任意 有 限 子 
集 都 是 可 交换 的 , 则 该 无 穷 变量 序列 是 可 交换 的 。 可 交换 性 表明 了 随机 变量 的 联 
合 分 布 不 依赖 于 随机 变量 之 间 的 位 序 , 但 变量 之 间 可 能 存在 依赖 性 。 独 立 同 分 布 
变量 是 可 交换 的 ,但 可 交换 变量 不 一 定 是 独立 同 分 布 的 。 
定理 2.1: (De Finetti 定理 ) 对 于 任意 无 穷 可 交换 的 变量 序列 (XIX € 
A, 存在 参数 空间 Ө 和 相应 的 分 布 如 (0), 使 得 任意 N 个 随机 变量 的 联合 分 布 有 如 
下 的 混合 表示 : 
РОК. X: Xn) = [ exco] [Pex | 040 (2.3) 


， 当 AA 是 一 个 K 维 空 间 时 , 86 是 K 一 1 单纯 形 。 当 A 是 欧 几 里 得 空间 时 , 8 是 概率 测 
度 的 一 个 无 穷 维度 空间 。 
可 交换 性 并 不 意味 着 随机 变量 之 间 的 独立 性 ,但 根据 De Finetti 理论 ,在 给 定 
一 系列 参数 9 的 条 件 下 ,变量 之 间 是 条 件 独立 的 。 值 得 注意 的 是 ,对 于 连续 的 采样 
空间 9, 这 些 参数 是 无 限 维 的 。Hewitt 和 Savage 已 经 证 明 , 给 定 一 个 随机 变量 序 
列 ,它们 的 混合 分 布 是 唯一 的 。 定 义 一 个 无 限 的 可 交换 的 随机 变量 序列 ,可 以 通过 
指定 一 个 生成 算法 来 保证 可 交换 性 。 例 如 ，Blackwell 和 MacQueen 通过 生成 模 
型 的 混合 分 布 来 构建 狄 利克 雷 过 程 , 称 为 无 限 Polya Urn 机 制 。 


2.3.3 Kolmogorov 扩张 定理 


Kolmogorov 扩张 定理 直接 从 有 限 维度 空间 的 边缘 分 布 构建 无 限 维度 空间 中 
的 测度 。 以 高 斯 过 程 为 例 , Kolmogorov 扩张 定理 保证 ,对 于 一 个 随机 变量 的 集 
合 ,其 任意 有 限 子 集 的 联合 分 布 都 是 高 斯 分 布 ,高 斯 过 程 测度 对 于 整个 集合 都 是 存 
在 的 而 且 是 唯一 的 。 类 似 的 ，Ferguson 依赖 Kolmogorov 扩张 定理 ,通过 有 限 子 
集 的 狄 利克 雷 边缘 分 布 定义 了 无 限 维度 的 测度 。 

贝 叶 斯 非 参 数 模型 是 对 包含 了 无 限 元 素 的 随机 对 象 的 概率 分 布 , 如 何 定义 这 
个 分 布 是 首先 需要 考虑 的 问题 。 对 于 随机 变量 Xi ,ie E, 已 是 一 个 无 限 的 索引 集 
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合 , 那 么 Xe 是 随机 变量 构成 无 限 集合 。 这 个 随机 变量 的 无 限 集合 可 以 看 成 是 无 
SEES 函数 .运算 TORR. HF OE BUE BERR WA, E'= (IC Е,|1|< 

°) 表示 EE 的 所 有 有 限 子 集 。 随 机 变量 X, 在 Polish 空间 Q'"— О 取 值 ,无 限 维度 
的 随机 变量 的 采样 空间 是 无 限 乘积 空间 O^ = 110; 形象 地 说 , OF 是 同一 空间 9 


的 无 限 重 复 。 无 限 维度 测度 的 有 限 维 边缘 分 布 是 ОЕ 有限 维 子 空间 上 的 边缘 分 布 。 
ICD ыы ET ICE', 采 样 空间 为 Q', 每 个 随机 变量 X' 的 边缘 测度 为 
ul. QE 任意 的 两 个 子 空 间 O I OQ! ,TC Jc = Ge, 是 子 空 间 Q7 中 一 系列 元 
素 , 子 空间 o! 在 Q' 的 投影 运算 为 Piz = GO; 即 投影 运算 是 从 子 空间 О” 中 
移 除 那些 不 在 空间 Q 上 的 元 素 。Pj.i 的 预 映射 用 Rj.i 表示 , Ках = (€ | 
Piu xa 

定义 2.3:( 投 影 族 , Projective Family) (i! | ТЄ Е" 5 25 |8] (Q! , B!) 上 的 
概率 测度 族 ,如果 对 于 任意 II € E^ IC J. 如 果 满 足 

Prat = a (2.4) 
则 称 此 概率 测度 族 为 投影 族 。 

假设 已 经 给 定 无 限 随机 变量 X^ УЙДЕ L^. 如 果 它 所 有 的 边缘 分 布 都 在 0- 的 
有 限 维 子 集 上 计算 ,这 些 边缘 分 布 在 如 下 意义 上 一 致 :如 果 有 JJ,K €E E* 是 两 个 部 
分 重 芋 的 索引 集合 , 令 1 是 一 个 普通 子 集 , IC J3EB IC K, IJ ао Е 
的 边缘 分 布 是 确定 的 。 如 果 把 边缘 分 布 作为 投影 , 则 边缘 分 布 的 关系 就 是 式 
(2.4)。 换 一 种 说 法 ,定义 2. 3 表明 投影 族 是 一 个 测度 系统 , 它 能 够 构成 普通 测度 
ие 的 边缘 分 布 。 如 果 这 样 的 测度 存在 ,Kolmogorov 定理 表明 向 下 的 投影 是 可 逆 
的 , 即 如 果 这 些 测度 是 投影 的 , 则 测度 L^ 存在 并 且 是 唯一 的 。 

定理 2.2:(Kolmogorov 扩张 定理 ) 令 (u | ТЄ E^ ) 是 空间 Q! , B! 上 概率 测度 
的 投影 族 , 则 在 空间 (OBD 上 存在 唯一 测度 n^. 它 的 边缘 分 布 是 测度 px。 

由 Kolmogorov 扩张 定理 定义 的 测度 称 为 投影 族 н | T € E') 的 投影 极限 
(projective limit), 。 简 单 地 说 ,Kolmogorov 扩张 定理 描述 了 对 于 无 限 维 随机 变量 
序列 X. 如 果 它 的 所 有 有 限 子 集 的 边缘 分 布 是 已 知 的 ,那么 它 的 联合 分 布 就 已 经 
被 完全 定义 了 。 

随机 过 程 、De Finetti 定理 和 Kolmogorov 扩张 定理 是 本 文 的 理论 基础 ,在 后 
续 章 节 中 , 贝 叶 斯 非 参 数 模型 构造 方法 的 分 析 和 研究 均 在 这 三 种 理论 基础 之 上 
EF. 


2. 4 狄 利 殉 雷 过 程 


狄 利克 雷 过 程 是 狄 利克 雷 分 布 在 无 限 维度 中 的 扩展 ,本 节 从 有 限 维度 的 狄 利 
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克 雷 分 布 开始 ,到 无 限 维度 的 狄 利 克 雷 过 程 。 
2.4.1 狄 利克 雷 分 布 


4 y= 0scK). 从 个 离散 的 类 中 取 一 个 随机 变量 X, 如 果 第 类 占 总 体 
的 比例 为 x, M X 的 概率 为 : 
P(X | m) = |a 
EHE x= (my otto mx) om > 0, A Эл = 1.24 x ја РА BN Cr.) = 1,65 
WW 002,0) = 0, а zw 被 称 为 是 取 自 R^ AK — 1 维 单纯 型 空间 的 向 量 ,表示 为 x 
EAko WRA LAWWE (XO) s 则 这 工 个 观测 值 的 联合 概率 分 布 为 : 
LI түс 


Тет" 





pix” DTP diy | T , nk) == 


1. 
其 中 C, = > Oe Tm 
当 有 工 个 观测 值 时 ,可 以 对 多 项 式 参 数 r = (mr et ,xx) 进行 最 大 似 然 估计 : 
L = 
# = argmax > logp(X‘” | z) = (Z... S=) 


但 是 , 当 观 测 数 工 不 大 于 类 别 数 KK 时 ,根据 最 大 似 然 估 计 得 到 的 多 中 有 很 多 


(2, 5) 





的 0 值 , 从 而 导致 错误 估计 。 
贝 叶 斯 方法 通常 假设 其 为 某 共 四 e 先 验 分 布 ,从 而 进行 贝 叶 斯 推理 ,多 项 式 分 布 
BY FE HE HG Wy a} A AE AK All GE E TH o 
1) 狄 利克 雷 分 布 的 定义 
K 维 狄 利克 雷 分 布 是 一 个 连续 的 概率 分 布 , 其 密度 函数 为 : 
ox on 
(| fp = — = nf (2. 6) 
p(n | B Tira! 


其 中 g, 20. V & 通常 记 为 DirCr | B). WRK FSRAAS MAME K — 1 维 的 
单纯 型 空间 中 均匀 分 布 ,如果 参数 不 相等 ,那么 就 会 偏向 ,例如 图 2. 1 描述 的 三 维 
狄 利克 雷 分 布 ,其 参数 分 别 为 p= 二 (2,2,2),(6,2,2),(3,7,5),(6,2,6)。 


将 狄 利克 雷 分 布 中 的 参数 В, 用 ago 表示 ,其 中 , a = УВ, ,go = Su BU 


大 


利克 雷 分 布 表示 为 : 
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Dir(2.0,2 0,2 0) Dir(3.0,7.0,5.0) Dir(6.0.2.0,2.0) Dir(6.0.2.0,6.0) 





图 2.1 KHER 


K 


Г(а) ag 一 ] 
一 пр" 
Пг) k=] 

k 


id л ~ Dirleg,), a 被 称 为 集中 参数 (Concentrate Parameter), go = (goi goz，…， 
gok) 称 为 期 望 参数 (下 xpectation Parameter), 
通过 这 种 参数 变形 后 , x 中 各 分 量 的 均值 和 方差 为 : 


— gal go) 
E[ x, | а, | = Bo* Var E7 | ago] Ba 1) (2. 8) 


因此 , g, 可 以 看 作 关 的 先 验 假设 , 当 gw = 0, WURA л, = 0, 24 ga = 1.д„ = 0, 
Vk 了 关 i, 则 以 概率 1 得 到 z= ei(e; 为 单位 向 量 )。a 是 集中 参数 ,表示 实际 分 布 与 期 
ABR g. 的 紧密 程度 。 

狄 利克 雷 分 布 是 多 项 分 布 的 共 思 分 布 函数 ,通常 作为 多 项 分 布 的 共 思 先 验 。 
多 项 式 分 布 的 概率 公式 为 : 


bG | agoi stt sagor) == (2. 7) 


C»! ‚ 

Pu (h | т) = ПЕ exp (2 jhylog(x;)) (2.9) 
例如 ,对 于 某 随 机 实验 可 能 的 结局 有 K 种 ,分 别 是 A Ad A, 它们 出 现 的 概率 
分 布 分 别 是 rm ,zs，… ,xx， 则 在 NN 次 采样 的 总 结果 中 ,Al 出 现 h К.А, 出 现 h, 
К. A, 出 现 h 次 , 则 多 项 式 概 率 公 式 (2.9) 表 示 了 这 样 的 事件 出 现 的 概率 。 

2) 狄 利克 雷 分 布 的 后 验 计算 

狄 利克 雷 分 布 是 多 项 式 分 布 的 共 恩 先 验 ,根据 指数 族 的 性 质 ,r 的 后 验 分 布 也 
是 一 个 狄 利克 雷 分 布 , 即 如 果 先 验 为 zx 一 Dir(ag,), 某 次 实验 观测 值 XE А,, Bit 
算 后 验 p(x | X = iago), 根据 贝 叶 斯 公式 ,得 到 : 

p(X = 1 | mp | ago) 





p(n | Х = irago) = 
p(X = і | л) pG | ов) х (2.10) 
x€ A, 
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在 给 出 观测 值 X 的 条 件 下 ,可 以 计算 n 的 后 验 分 布 ,首先 ,观测 值 X = i 的 概 
率 为 p(X — i | m) = п, 将 其 与 先 验 p(x | og.) 相 乘 , 则 得 到 后 验 为 : 
pr | X € Аа) eon [ [nr (2. 11) 


这 个 表达 式 与 Dir(ag。 十 e) 成 比例 ， 即 把 先 验 的 狄 利克 雷 分 布 在 第 i 个 参数 上 增加 
ПЫ 
以 此 类 推 , 当 观测 数据 有 工 个 时 ,有 


L 
p(n | X, = x, X, = xoc Ix = x, | m) p(x | ago) 
(2. 195 


= =I +C,-1 
其 中 С, 表示 观测 数据 为 第 & 个 分 量 的 个 数 且 E = L, 标准 化 后 ,后 验 分 布 为 
Dir(ago + С, »*** абок + Ck) (2. 13) 


FE e HX rfi — THC л 的 后 验 也 是 一 个 狄 利克 雷 分 布 ,只 是 其 中 的 参 
数 通 过 统计 观测 数据 来 获得 更 新 ,这 种 先 验 和 观测 数据 的 互动 可 以 通过 后 验 分 布 
的 均值 来 反映 : 


== ane = — ago + C, — _@8% С, 
ELm | X, = хлу,++,Х, = xi] ENT ЕНГЕ (2. 14) 


式 (2.14) 直 观 地 反映 了 先 验 和 观测 值 对 后 验 的 贡献 。 与 式 (2. 5) 相 比 , 式 (2. 10 XE 
示 估 计 的 参数 被 狄 利克 雷 先 验 平滑 了 。 

3) Dirichelt 分 布 的 生成 

有 多 种 方法 可 以 生成 符合 参数 ago 的 狄 利克 雷 分 布 。 最 常见 的 方法 是 由 
Сатта 分 布 来 构造 。 

首先 生成 符合 Gamma 分 布 的 变量 Z, , H. 

Z, ~ Gamma(ago; sÀ) (2. 15) 

其 中 ago 是 形状 参数 , л 是 尺度 参数 ,可 以 是 任意 正常 数 , i = 1. K. 


+ 








(2. 16) 








а = РЕ ЛИИ: 06 
© de^ 
得 到 的 m S F а 8 ago 的 狄 利克 雷 分 布 。 
可 以 利用 Beta 分 布 来 构造 ,方法 如 下 : 


第 2 章 贝 叶 斯 非 参 数 模 型 的 构建 | 021 


K 
V, ~ Beta (ag ox ‚а > Zo) 
erus 


x, -V,[[a-vo (2.17) 


得 到 的 Cr o eO ~ Dirlago) , EAA UL Paisley 在 2010 年 的 论文 。 在 无 限 维度 空 
间 中 采用 这 种 构造 方式 则 得 到 狄 利克 雷 过 程 中 的 Stick breaking 过 程 。 

另 一 种 构造 狄 利克 雷 分 布 的 方法 是 通过 Pólya Urn 过 程 来 构造 , Polya Urn 
过 程 以 一 个 序列 的 方式 获得 具有 狄 利克 雷 先 验 的 随机 离散 概率 分 布 的 采样 ,采样 
过 程 描述 如 下 IRA ET ,里面 有 个 球 , 这 些 球 共 有 K 种 颜色 ,其 中 第 一 种 
颜色 的 球 有 aga 个 ,第 二 种 颜色 的 球 有 ago 个 ,以 此 类 推 , go. € A. BEILA Р 
中 取 一 个 球 X ,这 个 球 的 颜色 是 第 +, 种 的 概率 是 go*， 然 后 把 这 个 球 放 回 镀 子 ， 
并 在 罐子 中 放 一 个 相同 颜色 的 球 。 每 次 取 球 之 后 , 负 子 中 都 增加 一 个 球 , 这 个 过 程 
重复 NK. 

计算 这 一 过 程 中 拿 出 球 的 颜色 的 概率 。 在 第 一 次 取 球 和 放 球 之 后 ,第 二 次 拿 
出 的 球 的 颜色 概率 为 : 


a < 
p, | X, = D = д. tne (2.18) 


WE N 次 取 球 放 球 之 后 ,取得 的 第 N 十 1 个 球 的 颜色 的 概率 为 : 
轧 (X war | Х, == Lis Ka — x ‚*** X = хм) 








K K 
E E. ü (2, 19) 
= 24 а +N T T+ N 22860, 
第 N 十 1 个 球 的 颜色 为 =, 的 概率 为 
BOX ч — Hy | X, = zs Xo = Tzs, XN = ту) 
EE "E" (2. 20) 
SIR a+ Ne 


根据 | P(A | B)p(B| Сав = (А | ©, 4 
n, 
bOX xa | X; == di X; == 5 yore XN = XN) 
Е [sas | m) p(n | X, = zi, X, = 2,6, KN = Ln) da 


在 给 定 x 的 条 件 下 ,第 N 十 1 取得 第 & 种 颜色 球 的 概率 为 户 (XnwtH = x, | m) = m 
所 以 有 
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力 (XANH == Ту | Х, == ху,Х, = 2; 9° XN = XN) 


= ex... = Ж» | л) р(л | Х, = vy 3X; = Ls ‚*** Ky Sem xrn)dn 


= Гарс | X, = Ti PE == La s*** Xy = ху)ал 


= E[x, | Xi = л\,Х, = 225°, Xn = zs] 
EN C, aS ok 
a 十 N а+М 
与 狄 利克 雷 分 布 的 后 验 (2. 14) 一 致 。 在 无 限 维度 空间 中 采用 Ро!уа Urn 过程 
则 得 到 有 名 的 中 国 餐 馆 过 程 。 


2.4.2 狄 利克 雷 过 程 


非 参 数 方法 用 随机 过 程 对 无 限 维度 空间 进行 建 模 ,常常 用 在 有 限 维度 空间 的 

应 分 布 进行 描述 。 例 如 高 斯 过 程 的 定义 ,一 个 函数 fiy 一 R 是 依据 高 斯 过 程 的 
分 布 , 当 且 仅 当 任意 NDA x: EyYy 的 函数 值 的 概率 密度 p Cf Gr en flay) 是 
联合 高 斯 分 布 。 所 以 高 斯 过 程 可 以 以 均值 函数 和 方差 核 作为 参数 。 与 高 斯 过 程 类 
似 ,由 Kolmogorov 扩张 定理 , 狄 利克 雷 过 程 是 有 限 维 狄 利克 雷 分 布 的 投射 族 。 由 
狄 利克 雷 分 布 获得 的 随机 采样 是 有 限 概率 分 布 , 其 值 是 将 采样 空间 Q 分 割 成 有 限 
数量 的 柱状 图 (Histogram Bizs)。 有 限 的 索引 子 集 TE 三” 表示 把 Q 分 为 有 限 个 
数 的 子 集 。 对 于 测度 空间 (О.А), 将 Q 分 割 为 测度 集合 称 为 测度 分 割 (measure 


partition), ШАХТ Vi A; € А, iz j. A, ПА; = @, UA = D; Bj H= (A,, 
…,A,) 是 一 个 测度 分 割 。 所 有 的 A- 测 度 分 割 用 7 表示 , H ”表示 人 中 的 有 限 集 


A 
Ho 








定义 2.4:( 狄 利克 雷 过 程 ) 包 含 概率 测度 G 的 测度 空间 (Q. A), 对 于 任意 的 
测度 分 割 H € MCA), 5 В" 是 积 空 间 R = IR.Sim(R,H) 是 单位 单纯 型 。 用 


Pi C | а,в) 表示 Sim(R, Н) 上 的 狄 利克 雷 密度 ， 收敛 参数 a E R. , 期望 参数 g € 
Sim(R , 互 ) 。 对 每 个 测度 分 割 H € НОВ). 定义 属于 Sim(R, Н) 的 向 量 e" 为 : 
ҮА, € Н, вй: = G (A), 密度 函数 рь, (| а, а) 指定 的 测度 为 к, 投影 族 (Ap | 
H € 'HOBD) 的 投影 极限 是 基础 测度 为 G, 的 狄 利克 雷 过 程 , 记 为 DP, G). 

简单 来 说 , 狄 利克 雷 过 程 是 定义 在 随机 概率 测度 上 的 分 布 , 其 参数 是 Q 上 的 
一 个 基本 测度 G。 和 一 个 作为 收敛 参数 的 正 标量 a 对 空间 О 的 任意 有 限 分 割 
(Т. Tg, 有 

(GOT, 04 4GÉTR O20 ~ Dir(aG (Ti) st aG, (Te) (2.21) 

ДС Еа, 
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根据 狄 利克 雷 过 程 的 定义 (2. 21) 和 狄 利 克 雷 分 布 的 均值 表示 (2. 8) ,对 于 任意 
区 域 T C О. 狄 利克 雷 过 程 的 一 个 随机 采样 的 测度 均值 为 : 
E[G(T)] = G(T), С ~ DPG.G) (2. 22) 
即 基本 测度 G, 指定 DP(a ,G,) 的 均值 ,参数 与 狄 利克 雷 分 布 的 精度 参数 类 似 , 决 
定 采样 相对 于 基本 测度 的 平均 偏离 。 


2.4.3 狄 利克 雷 过 程 的 性 质 


狄 利克 雷 过 程 的 性 质 是 狄 利 克 雷 分 布 的 性 质 向 无 限 维 空间 扩展 的 结果 。 
Ferguson 在 给 出 狄 利克 雷 过 程 定义 的 基础 上 ,对 狄 利克 雷 过 程 的 诸多 性 质 进 行 了 
WEAR. Subhashis 在 2010 年 对 狄 利 克 雷 过 程 的 性 质 重 新 进行 了 比较 全 面 的 总 结 。 
AS BE HS GR OC AY RE BE IT HK All oe E a EY SE МЕ. PE ET НЯ. 

1) ҖЕ 

ж E— rp ACRI SES р do MAA WHI. n REX DU 2) Ип Ж} 
扩展 到 无 限 维 空间 ,将 多 项 式 模型 的 投影 极限 与 狄 利克 雷 模 型 的 投影 极限 相对 应 ， 
从 而 得 到 无 限 维 多 项 式 过 程 , 这 就 是 Dubins 和 Pitman 提出 的 “中 国 和 餐馆 过 程 ”。 

类 似 于 有 限 狄 利克 雷 分 布 计算 的 后 验 (2.11), 对 测度 空间 的 任意 有 限 分 割 
(Ties Тк), 当 有 观测 值 z € T,, 存在 后 验 密度 函数 : 
p((GC(T,) °° ,GCTx)) | & € T,) = Dir(aGo CT) 7 , aG ó CT4) 4-1, оС (Tx )) 

(2. 23) 
344 N 个 相互 独立 的 采样 , 则 有 如 下 定理 。 

EH 2.3: G~ DP(a, H) 是 符合 狄 利克 雷 过 程 的 随机 测度 。 给 定 NN 个 相互 独 

立 的 采样 元 — G, 后 验 测度 也 是 一 个 狄 利克 雷 过 程 : 


BG | "gs sa Go) = DP [a + N, o6 + 25. )) 02.24) 


证 明 可 参见 Ferguson Xt F: B 2 A IRAk Ж y E Jes Wr 4 1н BJ 2: UJ SR ЖЕТТ B) UE НЯ, 
也 可 以 参看 Sethuraman 的 男 一 种 更 简单 的 证 明 。 

既然 犹 利克 雷 过 程 的 后 验 仍旧 是 一 个 狄 利克 雷 过 程 , 根 据 式 (2. 22) ,得 到 后 验 
期 望 为 : 


ELG | Ty °° XN ,Qa ,Go | = (96 + 215) (2. 25) 
对 于 任意 TC Ө, 其 后 验 期 望 为 
K 
ELGIT) | si eges Gi] = Ar (eGo (T) + DNA. C) 02.20) 


其 中 N, A Go mO k = los K, ERIE, K 是 一 个 随机 变量 ,不 是 一 
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个 固定 的 值 。 
由 定理 (2. 24) ,在 已 有 :个 相互 独立 的 采样 元 ,…, 元 一 G 的 条 件 下 ,第 ;十 1 个 
采样 可 由 狄 利克 雷 采 样 公式 得 到 : 
Ti+ | qme "made; s 46 + 21У, (2. 27) 


这 个 过 程 称 为 Pólya Urn 机 制 。 

2) 集 中 性 

狄 利 克 雷 分 布 中 集中 参数 о 表示 实际 分 布 与 期 望 参 数 g。, 的 紧密 程度 。 图 2. 2 
显示 了 从 不 同 的 三 维 狄 利克 雷 分 布 获得 的 10 000 个 采样 ,图 中 狄 利克 雷 分 布 的 g, 
为 均匀 分 布 , we 三 1,3,10。 当 wa 王 开 , 即 与 狄 利克 雷 分 布 的 维度 相同 时 ,采样 点 均匀 
地 分 布 在 天 一 1 单纯 型 上 。 当 ww 之 天 ,采样 点 集中 在 g, 周围 ,日 4 越 大 , 越 向 g E 
中 。 当 a 二 K, 采样 点 集中 在 Дк 的 角落 , 且 a 越 小 ,采样 越 向 单纯 型 的 角落 集中 。 
通常 , 当 a 与 K 的 比 越 小 , 则 生成 的 x 就 会 更 稀 玖 ,这 种 情形 与 狄 利克 雷 过 程 有 
关系 。 











图 2.2 三 维 狄 利克 雷 分 布 的 投影 


在 指数 族 模型 中 , 较 大 的 集中 参数 使 得 测量 的 中 心 紧密 地 围绕 着 它 的 期 望 值 。 
在 犹 利克 雷 过 程 中 ,如 果 a 比较 大 , 则 由 式 (2. 27) 获 得 的 采样 多 数 来 自 G, 从 而 使 
得 整体 经 验 分 布 集中 于 G, 。 但 这 种 数据 特征 必须 在 有 足够 多 的 采样 时 才能 够 反映 
出 来 。 对 于 较 小 的 a, 随机 测度 将 集中 于 最 初 的 几 个 观测 值得 到 的 Dirac 测度 ,这 
是 因为 Dirac 测度 表示 无 限 维 概 率 单纯 型 中 的 极 值 点 。 

表 2. 1 显示 了 狄 利克 雷 过 程 的 集中 参数 与 样本 总 数 之 间 的 关系 。 样 本 总 数 N 
分 别 为 20,50,100,200,1000, 和 集中 参数 a 分 别 取 NN 的 一 2. 0 一 3. 0 整数 倍 。 从 表 中 
可 以 看 出 , 当 vw 等 于 或 小 于 N ,得 到 的 聚 类 个 数 更 倾向 于 1; 04 等 于 或 大 于 N: 
时 ,得 到 的 聚 类 数 更 倾向 于 N. 
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表 2.1 基于 不 同 集中 参数 与 样本 数 得 到 的 聚 类 数 























2.5 MORI Se Sh ЭЧ RY 


ХРА iB a AG OR VE PA ea” ДЕШ fap BGK K 个 值 在 0 一 1 之 间 且 和 为 1 
的 概率 。 对 于 狄 利克 雷 过 程 来 讲 , K 是 个 不 确定 的 数 ， 构 造 ? 是 如 何 得 到 不 确定 
К NEE 0 一 1 之 间 且 和 为 1 的 概率 。 基 于 2.3 节 中 阐述 的 随机 过 程 、De Finetti 
理论 和 Kolmogorov 扩展 理论 等 ,研究 者 针对 狄 利克 雷 过 程 设计 了 多 种 构造 的 方 
法 ,下 面 对 本 书 将 用 到 的 狄 利克 雷 构建 过 程 进行 分 析 , 并 给 出 其 与 稀疏 表示 的 


2.5.1 Stick-breaking 过 程 


Sethuraman 提出 Stick-breaking 过 程 , 并 证 明 其 是 狄 利克 雷 过 程 。 该 过 程 以 
形象 性 和 易 理 解 性 在 狄 利克 雷 过 程 的 应 用 中 经 常 被 使 用 。 

Stick-breaking 过 程 可 以 看 作 将 一 个 单位 长 度 的 棍子 不 断 折 断 的 过 程 , 且 折断 
次 数 是 无 穷 的 。 首 先 ,选择 一 个 位 置 w ~ Beta(1,y), 把 折断 的 部 分 v 分 配给 一 个 
随机 的 点 4 ~ 五。 对 于 剩 下 的 部 分 1 一 wm，, 选择 一 个 位 置 u, — Вета(1,у) 位 置 折 
断 ,把 (1 一 wm)o 分 配给 一 个 随机 的 点 2 ~ 互 ,再 对 剩 下 的 部 分 (1—0) (1—0) 重 
复 上 述 的 操作 。 图 2. 3 对 此 过 程 进行 了 描述 。 
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В, 1-8, 
eS n 
м В, 1-5, 
лә В, 1-8, 
— 
л; В, 1-В, 
ae 
Ta B, 
eH 
Ts , 


2.3 Stick-breaking 过 程 


这 个 过 程 的 数学 表示 如 下 : 
P = 5 à, 
ác Н 
y (2. 28) 
-vu[lIa-w 
iid 
Uy ^ Beta(1,y) 
H 2602. 28) n] (8 
P = Y,ë, + (0 ҮҮ, + (1 ҮҮ, + +] 
(2. 29) 


= Yià; + O—YU)P 
这 种 描述 形式 使 得 已 可 以 通过 MCMC 采样 生成 。 
Stick-breaking 过 程 具 有 天 然 的 层次 特性 ,可 以 表达 复杂 的 层次 狄 利克 雷 过 
程 。 如 果 基 础 测度 Go 服从 狄 利 克 雷 过 程 , 以 Stick-breaking 过 程 对 其 进行 构造 , 则 
有 


Go = ^ Bids (2. 30) 


i=] 


其 中 . Bi 0; 如 式 (2. 28) 描 述 。 

Pitman 将 无 限 序 列 (Bi +o) 的 联合 分 布 称 为 GEM(a)。 如 果 随 机 测度 С, 
也 服从 狄 利克 雷 过 程 ,而 且 每 个 G, 的 元 素 都 是 Go 的 元 素 , 则 G, 的 Stick-breaking 
表示 是 : 


G, == ps (2. 91) 
X. 31) 将 问题 转变 为 权重 В == CB, etm) 和 ль = tas $777) 之 间 的 关 
系 。 这 些 权 重 向 量 都 是 离散 空间 {1,… co) 的 概率 测度 ,以 狄 利克 雷 过 程 对 空间 


的 分 割 来 表示 对 整数 的 分 割 ,根据 狄 利克 雷 过 程 的 收敛 性 ,有 : 
m | a. B ~ ОР(а, В) (2. 32) 
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则 对 于 T; 的 构造 可 以 表示 为 : 
vi | as Bh ~ Beta(aB;,a(l— 385). i = ] ，… ,co 


i=] 
Nki — Uki | | (1 — wy) 
j=1 


(2. 33) 


2.5.2 中 国 餐 馆 过 程 


中 国 餐 馆 过 程 描 述 了 狄 利克 雷 过 程 的 条 件 分 布 。 如 果 С ~ DP(a, H) 是 符合 
狄 利克 雷 过 程 的 随机 测度 ,在 已 知 G 生 成 的 ; 个 相互 独立 的 采样 x; САЖЕТ, 
第 i 十 1 个 采样 的 过 程 称 为 中 国 餐 馆 过 程 , 即 

Tua | rr DP(a, Н) (2. 34) 

根据 狄 利克 雷 采样 公式 (2. 27) ,第 ;十 1 个 采样 以 概率 -——— 从 已 有 的 第 个 堆 

PRG Hm, 是 已 有 的 ; 个 采样 中 落 人 该 堆 的 采样 的 个 数 ; 第 i 十 1 个 采样 以 概 


率 T 从 新 的 堆 中 获得 。 这 个 过 程 相当 于 第 一 个 顾客 进入 餐馆 后 ,随机 地 选择 一 


а i 








1 
atl 


= 选择 新 的 桌子 坐 下 ; 随 着 顾客 数量 的 增加 ,选择 新 桌子 的 概率 逐渐 降低 ,顾客 


更 多 地 集中 在 人 多 的 桌子 旁 。 图 2.4 显示 了 已 有 4 个 顾客 时 ,第 5 个 顾客 选择 各 
桌子 的 概率 。 


ОООО 


4 十 a 4 十 a 4 十 a 4 十 a 
图 2.4 中 国 餐 馆 过 程 
中 国 餐 馆 过 程 描 述 了 聚 类 的 过 程 ,并 且 能 够 实现 快速 的 聚 类 ,因为 随 着 顾客 总 
数 的 增加 ,更 多 的 顾客 聚集 在 已 选 的 桌子 旁 ,这 对 于 单 特征 的 数据 表示 非常 有 利 。 
在 本 书 第 5 章 中 , 正 是 利用 中 国 餐 馆 过 程 的 这 一 特点 ,对 视频 背景 信息 进行 建 模 ， 
从 而 实现 背景 剪除 。 


张 桌子 坐 下 ;第 二 个 顾客 进入 后 以 概率 坐 在 第 一 个 顾客 的 桌子 旁 ,以 概率 
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2.5.3 Pitman-Yor 过 程 


Pitman-Yor 过 程 是 一 个 二 参数 的 狄 利克 雷 过 程 : 
G — PY(d,a,H) (2; 35) 
HRHO<d<12# 412M (discount parameter), a >—d 是 集中 参数 (concentrate 
parameter), H Æ mW E., 4 d = 0 时 ,Pitman Yor 过 程 退 化 为 带 有 和 集中 参数 a 
> 0 的 狄 利 克 雷 过 程 。Pitman-Yor 过 程 生成 G 的 过 程 如 下 : 


G= Sas, (2. 36) 
其 中 的 0; 由 基础 测度 Н 独立 同 分 布 生 成 ,而 权重 B, 生成 如 下 : 
u | dia ~ Beta(1— 4,044), i = 1,2, 
ы (2.37) 
B =u] | —5) 
无 限 序 列 (8 ,8 ,…) 的 联合 分 布 为 GEM(d,a)。 2. 5 绘制 了 (doa) 分 别 为 
(0,5), (0.1,5), (0.5,5) Æ k = 1,10,20 时 的 概率 密度 。 





8 8 8 
7 7} 7h 
B6 pp p 
E 5 5Ñ E 5H 
A à А 
24 Bary p4 
53 53 23 | 
© © к=) 
92 oat \ ° 2 
а. а. \ e 
l | W | 
05 ү 9 0.5 1 95 0.3 1 
GEM(0,5) GEM(0,5) 


0.5 
GEM(0,5) 
图 2.5 Pitman-Yor 过 程 中 权重 序列 的 联合 分 布 


由 式 (2. 36) 和 (2. 37) 可 以 看 出 ,Pitman-Yor 过 程 的 构造 与 Stick-breaking 过 
程 的 构造 非常 相似 ,如 果 Pitman-Yor 过 程 的 折扣 参数 а = 0 即 可 得 到 Stick- 
breaking 过 程 。 但 折扣 参数 影响 着 Pitman-Yor 过 程 对 棍子 折断 点 的 选取 ,折扣 参 
数 越 大 ,每 次 选取 的 折断 点 越 靠 近 上 次 折断 的 位 置 ,这 也 意味 着 在 相同 条 件 下 , 带 
有 折扣 参数 的 Pitman-Yor 过 程 比 Stick-breaking 过 程 获得 的 折断 的 棍子 长 度 更 均 
5]. 

如 果 由 同一 Pitman-Yor 过 程 得 到 i 个 参数 , 即 9,0;,…,0; — G,G = PY (d,a, 
H), 假设 已 经 生成 前 i 一 1 个 参数 ,那么 对 于 第 i 个 参数 的 生成 ,可 以 通过 对 G 积 
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分 后 得 到 0 的 后 验 分 布 : 


0, | 01.0, ,.- -badas H = > 十 -4 十 Rd 


DURS mcm 

其 中 K 是 前 i 一 1 个 参数 0 ,2 ,…,0- 中 唯一 值 的 个 数 , 9” 是 其 中 的 第 上 个 唯一 
ЇН. n, 是 这 个 值 在 前 i 一 1 个 参数 中 出 现 的 次 数 。 这 种 描述 与 中 国 餐 馆 过 程 类 似 ， 
0, 是 第 i 个 客人 ,9” 是 餐馆 中 的 第 1 张 桌子 。 如 果 第 i 个 客人 坐 在 第 t 张 桌子 旁 , 则 
0 = 0; „ 5j Pitman-Yor 过 程 对 Stick-breaking 过 程 的 影响 类 似 ,Pitman-Yor 过 程 
增加 了 折扣 参数 对 过 程 的 影响 。 与 中 国 餐 馆 过 程 以 高 概率 产生 大 桌 不 同 ,折扣 参 
数 提高 了 新 桌 产生 的 概率 ,从 而 限制 了 大 桌 的 产生 。 


2.5.4 狄 利 克 雷 构造 过 程 与 稀疏 


在 层次 的 Stick-breaking 过 程 中 ,对 层次 模型 (2. 33) 中 B,x 的 特征 值 进 行 分 
Pr. В. 与 w, 的 均值 相同 , 即 
E[x,] = ELA] = Y (1 + y) * (2. 39) 


л, 的 方差 是 воено EEA] вр 





Н (2. 38) 





Varo] = g[&C |Var[p] (2. 40) 


Teh RE E Ed SE AX BA л Z [н] BO OE ZR BEAT Тїн Ж.Ш 2.6 所 示 。 由 图 
可 以 看 出 , л, 5j 8, HEC SE RU fü PE , ЈК Stick-breaking WES] A BU Fi Bü PE TE 
ü fü Bee HE [A] BP A EREN., 


0.8 / 0.8 m 0.8 = 0.8 Z; 

0.6 0.6 0.6 0.6 
wu 
= 
0.4 0.4 0.4 0.4 
B 

0.2 0.2 0.2 0.2 

% 10 ^20 — 30 % 10 —20 30 % D 239 3o 9 10 20 30 


图 2.6 层次 Stick-breaking 过 程 


对 于 中 国 餐 馆 过 程 中 顾客 和 和 餐桌 的 关系 ,如 果 把 中 国 餐馆 过 程 中 一 个 顾客 作 
为 矩阵 中 的 一 行 ,一 张 桌子 作为 矩阵 中 的 一 列 , 则 构成 一 个 二 元 矩阵 ,顾客 i 坐 在 
桌子 上 MERER (i,k) — 1, i 行 中 其 余 原子 丝 为 0.k 列 中 为 1 的 原子 个 数 与 表 
示 坐 在 该 桌 旁 的 顾客 数 。 这 种 扩张 给 出 了 一 种 常见 的 假设 , 即 对 于 每 个 对 象 ,描述 
它 是 否 具 有 某 种 特征 ,有 则 为 1, 没 有 则 为 0。 把 中 国 餐 馆 过 程 扩张 为 二 元 和 矩阵 的 
形式 对 稀 玻 矩阵 补充 问题 具有 良好 的 表示 。 和 矩阵 补 充 通常 假设 矩阵 低 秩 或 近似 低 
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秩 , 在 只 有 少量 观察 的 情况 下 恢复 矩阵 的 原始 信息 。 基 于 狄 利克 雷 过 程 的 矩阵 补 
充 可 以 发 挥 贝 叶 斯 非 参 数 方法 无 限 维度 的 优点 ,根据 观测 数据 自 适应 恢复 矩阵 的 
信息 ,这 也 是 狄 利克 雷 过 程 的 一 个 重要 应 用 研究 方向 。 


2.6 贝塔 过 程 


2.6.1 贝塔 过 程 的 描述 


贝塔 过 程 (Beta Process) 由 Hjort 在 1990 年 提出 并 将 其 应 用 于 基因 分 析 。 本 
书 采 用 Thibaux 和 Jordan 给 出 的 定义 : 

定义 2.5:( 贝 塔 过 程 ，Beta Process) WIEWE В ~ Beta(a. B,) 是 一 个 正 的 
Lévy 过 程 , 该 过 程 的 Lévy 测度 依赖 于 参数 a 和 Bo, 其 中 ,a 是 9 空间 中 的 正 函 数 ， 
称 为 集中 函数 。 当 它 是 常量 时 , 称 之 为 集中 参数 ; B 是 9 空间 中 的 测度 , 称 为 基础 
测度 。 

如 果 基 础 测度 B. 是 连续 的 , 则 贝塔 过 程 的 Levy 测度 是 

v(dó, du) = a(8,))w (1 — о)** dwB,(d9) (2. 41) 

要 得 到 B ~ BPa, Bi), 首先 根据 基础 测度 v 由 泊 松 过 程 在 空间 [0,1j 获 得 一 系列 
wis 同时 ,在 空间 O 获得 一 系列 9;, 构成 (9.,w), > 


B= >a, (2. 42) 


即 获得 贝塔 过 程 。 这 相当 于 是 把 空间 @ 分 为 小 的 区 域 , 将 原子 根据 基础 测度 В, 和 
原子 的 权重 (原子 的 权重 由 贝塔 分 布 生成 ) ,将 其 投入 相应 区 域 中 ,然后 计算 式 
(2. 42) 所 示 的 和 。 
如 果 В, 是 离散 的 , 且 В, = Хад, ,q; € [0,1], 则 巨 也 由 相同 位 置 的 原子 构 
成 : 
B= Уейд, (2. 43) 
其 中 
ш = Beta(a(0,)q i ,a(0;)(1 — 9;)) (2.44) 
图 2.7 描述 了 a 二 0, В, ~ Uniform(0,1) 的 贝塔 过 程 的 采样 ,正如 Lévy 过 程 
Tl XR Stas. DUS aS SY B 是 离散 的 ,由 于 v(8X1[L0,1J) = оо, 泊 松 过 程 生成 无 
限 多 个 点 ,使 得 式 (2. 43) 的 和 由 无 穷 多 个 采样 点 构成 。 
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图 2.7 贝塔 过 程 采样 


2.6.2 贝塔 过 程 的 构造 方法 


与 狄 利克 雷 过 程 相同 ,贝塔 过 程 也 有 多 种 构造 方法 ,除了 前 面 描述 的 Levy 过 
程 ,还 有 基于 贝 努 利 过 程 的 构造 、 基 于 泊 松 过 程 的 构造 等 方法 。 

D 贝 努 利 过 程 与 贝塔 过 程 

tj V EE EFE 3E Su N g fl iE Ре BeP(B)。 贝 努 利 过 程 采样 结果 只 有 0 或 1 
两 种 ,原子 只 能 出 现在 由 基础 测度 B 生 成 的 位 置 ,其 是 否 出 现 由 贝 努 利 分 布 决定 ， 
且 原 子 之 间 相 互 独 立 。 由 nn 次 贝 努 利 过 程 采 样 生 成 的 二 值 和 矩 阵 为 x X co 矩阵 , 列 
数 由 基础 测度 决定 。 和 矩阵 中 大 多 数 的 元 素 都 为 0, 少数 为 1, 如 图 2.8 所 示 。 


Draw 





2.8 贝 努 利 过 程 采 样 


基于 贝 努 利 过 程 和 贝塔 过 程 的 共 轿 关系 ,可 以 得 到 如 下 的 层次 模型 : 
Z | В ~ ВеР(В), i= 1,2,.,n (2. 45) 
В | а,В, ~ ВР(о,В,) 
ШЖ Z ,2 ,…，,2, 在 给 定 条 件 B 下 相互 独立 , 则 根据 De Finetti 定理 ,后 验 分 
布 也 是 贝塔 过 程 
B | Zi eZ, sa B, ~ BP(at 0 B, +- l 244) (2. 46) 


2) 基 于 泊 松 过 程 的 构造 
基于 泊 松 过 程 的 构造 方法 主要 针对 贝塔 过 程 中 在 [0,1] 和 空间 Ө 上 随机 采样 
获得 w 和 0 ,获得 的 原子 个 数 服 从 泊 松 过 程 。 对 第 n(n > 1) 次 服从 贝塔 过 程 的 采 
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样 过 程 如 下 : 
首先 根据 泊 松 分 布 获得 原子 个 数 : 
К, = Poisson (— 4 —) (2. 47) 
由 基础 测度 "ЕВ, 生成 K, 个 0;, ВИН Beta a n — D 生成 s 
更 新 : 
B, = В, 十 Sk, (2. 48) 


这 种 构造 方法 与 用 Stick-breaking st #2 I 3k #| 312 38 et ЖЕЕ ЖЩ. B IK BU 
子 在 @ 中 的 比重 进行 采样 。 


2.6.3 贝塔 过 程 与 稀疏 


贝塔 过 程 是 一 个 离散 的 过 程 , 每 个 原子 的 权重 0 一 ww <1, Н do 可 以 不 等 


于 1, 这 使 得 贝塔 过 程 与 狄 利克 雷 过 程 相 比 ,约束 更 为 松弛 。 贝 塔 构建 过 程 中 无 论 
是 基于 贝 努 利 过 程 还 是 基于 泊 松 过 程 ,都 在 空间 Ө 中 得 到 带 有 权重 的 原子 点 ó, + 
而 且 其 原子 点 的 权重 为 0, 自 然 可 以 用 于 稀疏 问题 的 建 模 。 

本 书 的 第 三 章 和 第 四 章 中 充分 利用 贝塔 过 程 对 稀疏 表示 、 字 典 构建 过 程 进行 
建 模 , 并 与 其 他 贝 叶 斯 非 参数 方法 进行 比较 ,实验 证 实 了 贝塔 过 程 对 稀 朴 问题 的 表 
示 的 优势 。 


2.7 小 结 


本 章 在 介绍 贝 叶 斯 非 参 数 方法 的 基本 理论 的 基础 上 ,阐明 了 狄 利克 雷 分 布 向 
无 限 维度 扩展 生成 的 狄 利克 雷 过 程 的 方法 ,分 析 了 狄 利克 雷 过 程 构建 方法 和 贝塔 
过 程 构建 方法 对 稀疏 建 模 的 可 能 性 和 优势 ,给 出 了 基于 不 同 构建 方法 实现 稀疏 表 
示 的 策略 。 


AS 4 == 


+ 3 = 
贝 叶 斯 稀疏 表示 


稀 玻 表示 作为 一 种 重要 的 数据 编码 与 表达 方式 ,不 仅 在 人 类 的 视觉 认 知 机 理 
上 具有 明确 的 理论 依据 ,而 且 在 信号 表达 与 重建 理论 方面 得 到 了 严格 的 证 明和 推 
导 。 神 经 生理 学 机 制 已 经 揭示 了 稀 跑 表达 作为 一 种 广泛 的 视觉 先 验 , 在 视觉 认 知 
和 推理 过 程 中 发 挥 着 重要 作用 。 压 缩 感知 (Compressive Sensing,CS) 理 论 从 信号 
表达 的 角度 证 明了 稀 玻 表达 是 高 维 信 号 在 特定 基 向 量 或 者 "字典 (Dictionary)” 上 
的 一 种 自然 表达 ,由 此 发 展 的 约束 优化 求解 策略 为 信号 的 稀 足 表达 提供 了 近似 最 
优 的 可 计算 模型 。 目 前 , 稀 跑 表达 已 经 在 理论 和 方法 上 得 到 了 快速 的 发 展 ,并 在 信 
号 压缩 .图像 处 理 .模式 识别 .机 器 学 习 等 多 个 应 用 领域 取得 了 很 多 成 功 的 应 用 ; 同 
时 由 于 稀 朴 表达 在 视觉 认 知 上 的 理论 基础 ,该 方法 对 视觉 任务 的 应 用 具有 很 多 天 
然 的 优势 。 

本 章 首先 对 稀 玻 表示 问题 进行 描述 ,介绍 常见 的 求解 方法 ,然后 针对 已 有 贝 叶 
斯 稀 玖 表示 求解 方法 进行 分 析 , 再 利用 贝塔 过 程 将 贝 叶 斯 稀 跑 表示 问题 中 的 先 验 
模型 从 收敛 先 验 扩展 到 离散 混合 先 验 , 使 其 能 够 根据 观测 数据 自 适应 调整 稀 朴 信 
号 的 稀 玻 度 , 最 后 通过 实验 进行 验证 。 


3.1 Mibi don 


3.1.1 问题 描述 


首先 考虑 线性 模型 
y = Xp (3.1) 
ЖР y E N X1 维 采样 信号 ,X 是 NX 开 维 矩 阵 , N< K, PEK XERA. 
给 定 X ЯП y x. 1) 是 一 个 欠 定 问题 ,有 无 穷 多 组 解 。 如 果 要 求 p ДЕК), PJ TI 
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量 和 中 非 零 项 的 个 数 尽 可 能 小 , 则 问题 可 描述 为 : 
argmin |||, s.t. XB = y (3.2) 
其 中 , Blo 1 ER, Blo = 80.8 AO}. 

Donoho 4& A JE BH , n Sg [fe X ifi ig (X) > 2 | B ls. Wl, 范 数 优化 问题 具有 
唯一 的 解 ,其 中 o X) 是 最 小 的 线性 相关 的 列 向 量 集 所 含 的 向 量 个 数 。 但 Donoho 
也 指出 ,最 小 2 范 数 问题 是 一 个 NP-hard 问题 ,需要 穷 举 及 中 非 零 值 的 所 有 Cz 种 
排列 可 能 。 

2006 年 ,Terrence Tao 5 Candés 合作 证 明了 在 满足 约束 等 距 性 条 件 (RIP) 
下 ,4 范 数 优 化 问题 与 以 下 1, 范 数 优化 问题 具有 相同 的 解 : 

argmin | Bll; s.t. XB = y (3. 3) 
其 中 约束 等 距 性 条 件 为 :存在 满足 某 种 条 件 的 常数 x ,使 得 
G—yklplislxglis-uolplii«vg.lgli < K (3.4) 
h 范 数 优化 问题 是 一 个 凸 优化 问题 ,存在 唯一 解 。 
进一步 考虑 含 噪 声 的 情况 ,可 得 到 相似 的 结果 
argmin | B ||, s.t. || XB— yllsse (3. 5) 
其 中 。 是 一 个 微小 数值 。 

在 上 述 数学 证 明基 础 之 上 , 稀 玻 化 问题 的 求解 方法 层出不穷 ,大 致 可 分 为 三 
类 :中 直接 优化 lo MN RBA. OA 1, 范 数 近 似 计算 Lo 范 数 的 凸 优化 方 
法 。Q@ 以 稀 朴 贝 叶 斯 为 代表 的 统计 优化 算法 。 下 面 简单 介绍 贪 禁 算 法 和 2 范 数 
近似 计算 Lo 范 数 的 凸 优化 方法 , 贝 叶 斯 方法 的 稀 足 表 示 作 为 本 文 的 研究 重点 ,将 
在 下 一 节 讨 论 。 


3.1.2 贪 禁 算法 


贪 禁 算法 是 针对 组 合 优化 提出 的 ,代表 算法 有 匹配 追踪 (Matching Pursuit) , 
正 交 匹配 追踪 (Orthogonal Matching Pursuit), 

基于 组 合 优化 的 方法 求 新 信和 号 稀 玻 表示 的 目标 ,是 在 已 知 的 字典 X 中 选 出 一 
个 包含 M 个 向 量 的 子 集 x,…，,xw， 使 得 在 同样 适用 M 项 来 通 近 信号 的 情况 下 ， 
误差 最 小 , 即 





(В.Х) = argmin || y — >= iss „ (3. 6) 


满足 式 (3. 6) 的 逼近 称 为 信号 y 的 M ЖЫЙЫШ. 但 直接 根据 式 (3. 6) 来 求 
解 信 号 的 M SUR CIB МР 难题 。Mallt 提出 的 匹配 追踪 算法 将 这 个 最 优 逼 近 
问题 通过 迭代 的 贪 焚 算 法 ,化 简 为 求 M 4S Pon dc Doa XE RI IR] BS E REC XE FERE 
中 ,从 和 矩阵 X 中 选择 最 能 匹配 信和 号 的 一 个 列 向 量 ,从 而 构成 逐步 近似 求解 信号 的 
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算法 首先 按照 某 种 规则 选 定向 量 xa € X, 将 了 分 解 成 沿 着 xa 方向 的 分 量 和 
与 其 垂直 方向 的 分 量 的 三 加 : 


y= (y, X 2X4 + Ry (3. 7) 

则 其 中 Ry 是 信和 号 y Wr xa 分 解 后 的 残 差 。 根 据 勾 股 定理 ,有 
ly P=] (уха? | + || Ry I? (3. 8) 

为 了 使 | Ry | 最 小 ,应 选取 使 | Cy x2 | 尽 可 能 大 的 xa, BI 
| Sy = sup | (ys > | (3.9) 


再 对 残 差 Ry METH X 中 找到 与 之 最 匹配 的 向 量 , 再 次 得 到 残 差 ;重复 这 个 过 
程 直 到 残 差 小 于 预 设 的 值 。 
经 过 M 次 迭代 ,信号 y 被 分 解 为 : 
у= DR y, x, Xm P Ry (3.10) 


m= 


匹配 追踪 算法 是 目前 最 广泛 应 用 的 求解 稀疏 表示 的 方法 ,这 种 近似 方法 得 到 
的 稀 玻 度 虽 然 不 够 高 ,但 计算 复杂 度 大 大 降低 。 然 而 该 算法 的 一 个 明显 缺点 是 ,在 
已 选 列 向 量 组 成 的 子 空间 上 , 它 不 是 一 个 正 交 投影 ,因此 信和 号 的 展开 可 能 不 是 最 
优 的 。 

正 交 匹配 追踪 (COMP) 算 法 是 在 匹配 追踪 算法 基础 上 的 一 种 改进 算法 ,此 算法 
选取 最 佳 列 向 量 的 方法 与 匹配 追踪 算法 一 样 , 不 同 的 是 正 交 匹配 追踪 算法 将 所 选 
列 向 量 利用 Gram-Schmidt 正 交 化 方法 进行 正 交 化 处 理 , 再 将 信号 在 这 些 正 交 列 
向 量 构成 的 空间 上 投影 ,得 到 信号 在 各 个 已 选 列 向 量 上 的 分 量 和 残余 分 量 ; 然 后 用 
与 匹配 追踪 相同 方法 分 解 残余 分 量 。 经 过 M 次 分 解 ,原始 信号 被 分 解 为 M 个 原 
子 的 线性 组 合 。 在 每 一 步 分 解 中 ,所 选 最 佳 列 向 量 均 满 足 一 定 条 件 , 因 此 ,残余 分 
量 随 着 分 解 迅速 减少 ,这 样 , 用 少量 列 向 量 就 可 以 表示 原始 信号 ,而 经 过 有 限 次 迭 
代 就 可 以 收敛 。 


3.1.3 OREH 


用 凸 优化 方法 L, 范 数 近似 求解 i 范 数 ,主要 有 Lasso、 岭 回归 、 弹 性 网 等 方法 。 

Lasso FERM L WAAR L 范 数 约束 求解 稀 玖 表示 ,由 于 Lasso 方法 
用 回归 模型 系数 的 绝对 值 函 数 作为 惩罚 来 压缩 模型 系数 ,使 得 绝对 值 较 小 的 系数 
自动 为 零 , 从 而 实现 模型 参数 选择 的 自然 稀疏 性 。 与 传统 的 模型 选择 方法 相 比 ， 
Lasso 方法 很 好 地 克服 了 传统 方法 在 选择 模型 上 的 不 足 , 因 此 该 方法 在 统计 领域 
受到 了 极 大 的 重视 。 在 算法 方面 ,最 初 用 二 次 规划 方法 做 Lasso 回归 ,但 其 有 效 性 
不 能 满足 人 们 的 需求 ,因此 ,很 多 学 者 在 这 方面 展开 研究 ,包括 Fu 提出 了 
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“Shooting” 算 法 、Osborne 等 提出 了 相应 的 同 伦 算法 等 。2002 Æ, Efron 等 人 提出 
的 最 小 角 回 归 (Least Angle Regression) 算 法 很 好 地 解决 了 Lasso 的 计算 问题 ,该 方 
法 的 计算 复杂 度 与 最 小 二 乘 回 归 相 当 。 有 效 算 法 的 提出 使 Lasso 方法 广 为 流 行 。 

稀 朴 表达 的 过 程 可 以 通过 优化 一 个 "损失 十 惩罚 ”的 函数 问题 来 完成 ,这 种 方 
法 一 般 被 称 为 正则 化 方法 。 上 岭 回 归 是 正则 化 方法 。 岭 回归 尽管 可 以 有 效 克 服 
自 变 量 间 的 高 度 相 关 性 ,并 能 提高 预测 精度 ,但 单纯 用 此 方法 却 不 能 得 到 稀 朴 解 。 
在 岭 回 归 的 基础 上 引入 “Boosting” 后 可 以 得 到 与 Lasso 同样 的 估计 。 

基于 最 小 角 回 归 算 法 的 Lasso 方 法 尽管 有 着 非常 好 的 性 质 , 并 且 也 的 确 克 
服 了 传统 方法 的 一 些 不 足 ,但 是 单纯 针对 Lasso 运用 最 小 角 回 归 算 法 ,对 于 К 
> N 的 情形 ,最 多 只 能 选择 N 个 自 变量 ,往往 得 到 过 于 稀 足 的 模型 。 针 对 这 
个 问题 ，Zou 和 Hastie 提出 一 种 处 理 该 问题 相当 有 效 的 方法 一 一 弹性 网 
(elastic net), 

弹性 网 方法 同时 采用 4 范 数 和 is 范 数 约束 ,实现 对 Lasso 方法 的 凸 松弛 ,从 而 
得 到 较 “ 温 和 ”的 稀 玖 模型 ; 当 弹 性 网 方法 中 Lo 范 数 惩罚 项 的 系数 为 零 时 ,其 退化 
为 Lasso 方法 。 在 一 些 面 向 应 用 的 特定 稀 玻 建 模 中 ,不 仅 对 模型 系数 有 稀 玻 性 要 
求 ,同时 还 要 求 为 非 负 ,比如 图 像 像素 值 的 生成 , 则 可 以 在 Lasso 方法 或 者 弹性 网 
方法 的 基础 上 ,增加 对 模型 系数 的 非 负 约束 。 


3.2 贝 叶 斯 稀疏 表示 方法 


贝 叶 斯 学 习 机 制 是 将 先 验 分 布 中 的 期 望 值 与 样本 均值 按 各 自 的 精度 进行 加 权 
平均 ,精度 越 高 者 其 权 值 越 大 。 在 先 验 分 布 为 共 斩 分 布 的 前 提 下 ,可 以 将 后 验 信 息 
作为 新 一 轮 计 算 的 先 验 , 用 贝 叶 斯 定理 与 进一步 得 到 的 样本 信息 进行 综合 。 多 次 
重复 这 个 过 程 后 ,样本 信息 的 影响 越 来 越 显著 。 由 于 贝 叶 斯 方法 可 以 综合 先 验 信 
息 和 后 验 信息 , 既 可 避免 只 使 用 先 验 信息 可 能 带 来 的 主观 偏见 和 缺乏 样本 信息 时 
的 大 量 盲目 搜索 与 计算 ,也 可 避免 只 使 用 后 验 信息 带 来 的 噪声 影响 。 

系统 的 采样 过 程 中 不 可 避免 地 包含 噪声 ,所 以 ,在 下 文中 , 均 考虑 含 噪 的 线性 
模型 


у= ХВ + (3.11) 
Ж е ~ N(0,a:1,) 的 高 斯 噪声 。 将 式 (3. 11) 写 为 高 斯 模型 ,得 到 : 
bG | «o = NXB ÈI) (3. 12) 


Н НЕБЕ, LP TP ETT ABE 2J B OS SL XJ T FSB HE Ba] ER , HR 
据 信号 8 PR Bu FPE , ЕЛА Н 2995 Laplace 先 验 ,但 由 于 Laplace 先 验 与 似 然 
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函数 是 非 共 斩 的 ,所 以 在 计算 中 不 易 处 理 。 因 此 ,研究 者 研究 和 发 展 了 多 种 基于 不 
同 先 验 分 布 的 贝 叶 斯 稀 玖 表示 学 习 方法 ,主要 有 相关 向 量 机 、 基 于 高 斯 先 验 的 稀 下 . 
表示 、 贝 叶 斯 等 。 


3.2.1 相关 向 量 机 


相关 向 量 机 (RelevanceVector Machine，RVM) 是 在 贝 叶 斯 框架 下 进行 学 习 
BJ R it BE ЄЛ ЖШ. КУМ 在 先 验 参 数 的 结构 下 基于 主动 相关 决策 理论 (Automatic 
Relevance Determination, ARD) BRA FAK A A. MA T BRS Pie i HL AY 。 
对 于 给 定 的 训练 样本 (y ox). КУМ 的 模型 输出 定义 为 : 
py) = NCGy | fiis so!) 


к (3.13) 
f(x; 5B) = > BK (х.х) + fi 
其 中 KC) Xm EIS 
假设 (у), 是 彼此 独立 的 , 则 КУМ 模型 得 到 y 的 概率 分 布 为 : 
ply | В.с) = TINY, | f (x; 3B) o^) 
xn (3. 14) 





5 2 
= (u yma k = L3— 8 1, 
2c 


其 中 及 是 由 及 组 成 的 向 量 , 更 则 是 由 各 向 量 x, 输入 核 函 数 得 到 的 NX (N+ D 矩阵 : 


1 Km) K(x35) we Kx xw) 
1 K(x,xj)) K (XX ) = KX. s XN) 
Ф = 
1 K( xy sgi) K (xn X2) mies K(xs , XN) 
TR Ж In] Л, 5 BR S р, 定义 了 一 个 独立 的 零 均 值 高 斯 先 验 的 概率 分 布 : 

p(B | a) = IN | 0, a) (3. 15) 

Ж а, 表示 高 斯 密度 函数 的 精确 度 ( 是 方差 的 倒数 )， юлия: 
pla | a,b) = [Ira | a+b) = Is m muse 'exp(— ба) (3. 16) 


通过 对 超 参 数 a 进行 边缘 分 布 计算 , 得 到 B 的 先 验 为 
p(B | a,b) ne II]. л | O,a, Ca | a ,b) da; (3. 17) 
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其 中 | Na, | 0,0.) Г(о, | а,б) da, 符合 Student-t 分 布 ,选择 合适 的 а FI b 时 ， 


Student-t 271: XE B, = O 附近 获 得 峰值 ,因此 这 个 先 验 促进 8 的 稀 朴 。 类 似 的 ,可 以 
Woo E (a, | c,d) 先 验 。RVM 图 模型 如 图 3. 1 所 示 。 


c d 

о O 

x / 
T WR 
Аа: c t=O g | 


图 3.1 RVM 图 模型 


由 于 КУМ 具有 很 好 的 稀 玻 性 及 核 函 数 的 任意 性 ，RVM 应 用 到 越 来 越 多 的 
领域 ,比如 医疗 诊断 .图 像 处 理 .视觉 跟踪 、 时 间 序 列 预测 等 。 但 是 计算 的 复杂 性 
和 占用 大 量 的 存储 空间 限制 了 КУМ 应 用 到 大 数据 集中 。 有 目前 解决 这 个 困难 的 
方法 有 快速 边际 似 然 法 、 将 核 函 数 正 交 分 解 的 Gram-Schmidt 算 法 Boosting 
RVM 等 。 


3.2.2 dT E rot Us A Bs Bi eT 


E T m И Б) # E s zS EAMUS EF Normal-Jeffreys. Normal-Gamma 和 
Normal-Inverse Gaussian 等 模型 。 在 这 些 模型 中 ,假设 (BAL, 之 间 是 独立 的 , 且 
服从 均值 为 0 ,方差 为 中 的 高 斯 分 布 : 


p(B) = [NGA 0-2 poi dai (3. 18) 
对 于 方差 о, Normal-Jeffreys 采用 先 验 p(oi) oc 1/0. 
计算 所 得 后 验 为 : 
p(B) ос BP'HTHB — 2BH Ty — BT (È) B (3. 19) 


其 中 H E x BIER. TG) = diag(oi, ,… ,ox ) o 这 种 先 验 不 是 标准 的 先 验 , 因 
为 它 的 积分 不 是 有 限 的 ,这 也 被 称 为 不 恰当 的 先 验 (improper prior) ,这 种 先 验 也 
ABE E AE A XT B BS Laplace 先 验 , 但 Figueiredo 的 实验 表明 ,该 先 验 能 够 有 效 引 起 
f ,并且 效 果 良 好 。 

Normal-Gamma 和 Normal-Inverse Gaussian 分 别 用 Gamma 图 数 和 Inverse- 


Gaussian 函数 作为 А) 36 05, BI of ~ Gammal 55) fill o; ~ 160,2), 得 到 的 后 
验 为 
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РОВ) ос |B | 57 Ka OH] B D (3. 20) 


Gp сс (Z-&) x [+ & | (3. 21) 


Normal-Gamma 4 25 86 e 5| £ fs Ий fA tt. Im Normal-Inverse Gaussian 先 验 能 
fj 5| ЖОК (DURS Bü BJ Їн ИГ. ИП K BK AY Db 28 аа F 0。 

图 3.2 显示 了 不 同 先 验 的 轮廓 , 当 o/K = 1 时 , Normal-Gamma 先 验 等 于 
Laplace 先 验 , 则 问题 шыл. ЕК ,可 以 采用 Lasso F. 24 a/K — 0,c— 0, Il 


先 验 是 Normal-Jeffreys, ЙЕ 化 为 log (| B. 1). 
(a) Laplace (b) Normal-Jeffreys 





(c) Normal-Gamma (d) Normal-inverse Gaussian 


图 3.2 不 同 先 验 的 轮廓 
综合 上 述 三 种 基于 高 斯 先 验 的 稀 朴 模型 ,可 以 用 下 式 表示 : 
E > ==! у, — XB, || ?— Spent?) (3,88) 





其 中 Normal-Jeffreys, Normal-Gamma 和 Normal-Inverse Gaussian 模型 中 


N 2 
реп“) 如 表 3.1 所 示 。 其 中 ш = TD = Jet 
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表 3.1 基于 高 斯 先 验 的 三 种 模型 
pen(@;' `) 


Nlog( ш) 


模型 


Normal-Jeffreys 











Normal-Gamma (+ -2 ) Мов ) — logK 2-1 (yuk) 





K 
N+1 
2 





Normal-Inverse Gaussian log(q,) — logK A+ ( yq, ) 





3.2.3 RAM 1, TR 


贝 叶 斯 i 范 数 有 针对 1 范 数 构成 的 贝 叶 斯 Lasso, £F Ж] / 和 38 28083 pR. Д 
叶 斯 弹性 网 等 方法 ,主要 采用 适合 的 先 验 , 通 过 积分 所 得 后 验 得 到 与 i 范 数 相 似 
的 形式 ,从 而 实现 贝 叶 斯 0, 范 数 。 


— Laplacian 
---- Normal 





3.3 Laplace 分 布 


D tt if Lasso 基于 Laplace 3 39 HE íT fJ HE. Laplace 76 38 Ji йй ze zS B) Bx A 

АЙ Н) FE 35 JÉ zÇ , Im EL 5j IE AS 23 fü 4H EG» Laplace 分 布 更 集中 于 0, 如 图 3.3 所 示 。 

但 Laplace 46 Js Ej jeg АЛТ JE: АЕ 2c Su йй. X г DE TH Жу Ж 28 PE , [S] ke, Park 等 人 采用 
层次 先 验 的 形式 : 

В. 102.7 ~ МОО»? y) 





co š (3. 23) 
y | а ~ exp(4*/2) 
得 到 : 
À 5 
b 1 а?) ~ -exp(— А | & | / vo") (3. 24) 
2 уа" 


对 参数 4, 一 种 方法 是 通过 对 最 大 似 然 取 边缘 分 布 ,再 通过 EM 算法 根据 式 
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jéz EB (3. 25) 


2E Lyi | y] 
另 一 种 方法 是 为 设置 在 的 边缘 最 大 似 然 估计 值 附近 取得 高 概率 的 超 先 验 。 
在 上 述 先 验 的 基础 上 ,根据 贝 叶 斯 Lasso 公式 ,计算 得 到 后 验 如 下 : 
B~ NCA X'y, A”) 
o ~ InvGamma(a, 5) (3. 26) 
1/¥ ~ InvGaussian( ay ,bo) 
其 中 , A=X'X+D,'.D,=diag(yio- y) o ha A rfi Н, а= (n 十 p)/2， 
b= (y— XB)" (y— ХВ) /2 + B'D,'B/2,BR a = J/Xc /B sbo = X. 
贝 叶 斯 弹性 网 基于 弹性 网 的 4 PERA 1, 范 数 约束 ,得 到 如 下 模型 : 
Be | saisi ~ NC o Ca, + A2) 
(3. 27) 





РТ 1/2 . y 
в (с) 16a 

对 a 积分 之 后 ,得 到 似 然 函数 : 
py | po. сс flo? ,Wexp|— zs [у= XB 122 у> | В | +в? 


其 中 , f(g o 是 只 和 7 的 联合 分 布 。 这 个 似 然 函 数 与 弹性 网 模型 相似 ,得 到 а 
的 后 验 为 : | 

B = argmin{ | y— xp 12-2 (о | B | +all pli?) (3. 28) 
通过 为 n 选择 合适 的 Gamma 19 45% | Hi 6. 

将 1, 范 数 惩罚 先 验 嵌入 在 层次 贝 叶 斯 中 有 很 多 优点 ,除了 常 说 的 层次 模型 
容易 解释 之 外 , 贝 叶 斯 公式 为 不 确定 性 提供 了 可 用 的 测度 。 然 而 ,上 面 介绍 的 求 
解 稀 朴 表示 的 方法 均 假 设 信号 的 稀疏 度 S 是 已 知 的 ,然而 在 许多 情况 下 , S 并 非 
事先 已 知 , 需 要 根据 观测 数据 估计 有 稀疏 度 ,因此 建立 动态 的 测量 方式 和 相应 的 
重建 算法 是 关键 的 问题 ,而 贝 叶 斯 非 参 数 方法 正 是 适应 于 建立 这 种 动态 关系 的 
有 效 方法 。 


3.2.4 贝 叶 斯 非 参 数 稀疏 表示 
对 于 稀疏 度 未 知 条 件 下 的 贝 叶 斯 i 范 数 的 模型 已 有 若干 研究 ,基于 贝 叶 斯 


非 参 数 过 程 的 稀疏 表示 模型 展现 了 良好 的 模型 自 适 应 性 和 稀 玖 表示 能 力 。 
Maclehose 和 Dunson 针对 观测 值 y 是 二 值 数 据 的 情况 ,采用 Lasso 先 验 


p(B) = [T DECA | 0.0) 对 进行 约束 ,其 中 0 是 位 置 参数 , r 是 范围 参数 。 根 
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据 West 对 范围 混合 高 斯 的 表示 ,有 : 
DECA | 0,7) = | NC. | 0. A09 expCA, | 2/7) dA, (3. 29) 


其 中 expG, | 2/0 是 以 2/r 为 均值 的 指数 分 布 。 由 于 模型 的 观测 值 y 是 二 值 的 ， 
所 以 式 (3. 29) P B 2& PF 2) dp de dE Su B0. TE E XR 4) Ur B 3E RE E. Maclehose 和 
Dunson 对 于 收敛 到 非 0 BJ В cus 2998 p(B) = LI ,DE(B. | pesà), 再 通过 
犹 利 克 雷 过 程 分 别 为 参数 赋予 层次 先 验 , 得 到 模型 如 式 (3. 30) 所 示 。 
B. ~ NCB | um A) 
À), ~ exp(Q, | 2/т) 
(рът) ~ пд, Co) Gamma(r, | ao +b.) + (1 — я) D (3. 30) 
x ~ Beta(x | 1,0) 
D ~ DP(aD,) 
D, = Nu | ed) Gamma(r, | ai +d) 
该 模型 通过 Gibbs 采样 进行 计算 。 模 型 适应 于 观测 数据 是 二 值 数据 的 情 
形 ,而 且 对 于 小 样本 数据 有 较 好 的 处 理 能 力 , 当 样本 数 N 或 字典 维度 较 大 时 . 
计算 速度 急剧 下 降 。 
在 基于 贝 叶 斯 非 参数 的 稀 朴 表示 的 研究 中 ,目前 的 热点 集中 于 以 贝塔 过 程 
Xe Ж Bü ЖЕ íT ETE XR. Paisley 在 2009 年 ICML & N E £ X" Nonparametric 
factor analysis with Beta process priors” 一文 ,继而 基于 Stick-breaking 构造 贝塔 
过 程 的 方法 .贝塔 过 程 用 于 字典 学 习 等 方面 开展 了 深入 研究 。 在 他 们 提出 的 模 
型 中 ,8 被 分 解 为 二 值 因子 xz 和 权重 因子 о 的 Hadamard 乘积 ,即将 模型 (3. 11) 
转变 为 : 
у= X(z ° @) + £ (3. 31) 
的 形式 ,再 对 新 的 模型 赋予 先 验 , 其 中 为 zx 赋予 贝 努 利 - 贝 塔 过 程 先 验 ,对 w 赋予 
高 斯 先 验 ,构建 的 贝 叶 斯 非 参 数 层次 模型 BP-FA 如 式 (3. 32) 所 示 : 
у= Х(2° 0) +e 
四 一 МОО, о) 
z, ~ Bernoulli( x, ) (3. 32) 
л, ~ Beta(a/ K,bC K — 1) / K) 
e~ N(0,Ga 1) 
其 图 模型 更 清楚 直观 地 表示 各 参数 之 间 的 关系 ,如 图 3. 4 所 示 。 
SHRM PER AAW 0 的 高 斯 分 布 相 比 ，BP-FA 模型 通过 参数 r 强 化 
了 在 相同 因子 子 集 上 的 稀疏 性 。 但 模型 对 权重 参数 和 稀疏 参数 的 同步 更 新 影响 
了 模型 的 运算 速度 ,因为 既然 通过 贝 努 利 -贝塔 过 程 增加 了 在 相同 子 集 上 得 到 一 
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图 3.4 BP-FA 图 模型 


致 稀 朴 值 的 概率 ,其 权重 的 不 断 更 新 引起 额外 的 ,不 必要 的 计算 。 当 样本 数 N 
或 字典 维度 K 较 大 时 ,计算 速度 急剧 下 降 。 


3.3 基于 离散 混合 贝塔 过 程 的 稀 蚊 表示 模型 


在 分 析 了 已 有 基于 贝 叶 斯 方法 的 稀 琉 表示 模型 基础 上 ,本 节 提 出 离散 混合 
贝塔 过程 贝 叶 斯 非 参 数 模 型 (Discrete Mixture Prior Beta Process model, 
DMPBP) 。 模 型 首先 通过 离散 混合 模型 将 数据 分 为 稀 玻 部 分 和 非 稀 玻 部 分 ,再 
对 非 稀 跑 部 分 的 参数 进行 估计 ,从 而 达到 在 计算 过 程 中 首先 降低 数据 的 维度 , 提 
高 计算 速度 的 目的 。 对 离散 混合 因子 ,模型 以 贝 努 利 -贝塔 过 程 作为 先 验 , 利 用 
贝 努 利 -贝塔 过 程 构造 相对 简单 的 特点 快速 得 到 稀 鸣 因子 ;对 于 非 稀 玖 部 分 , 模 
型 采用 层次 表示 的 Laplace 分 布 作 为 先 验 , 一 方面 利用 Laplace 分 布 比 正 态 分 布 
相 比 更 集中 于 均值 的 特点 进一步 允 近 稀 跑 , 男 一 方面 采用 层次 表示 的 方式 降低 
Laplace 先 验 与 式 (3. 12) JE H gg str ole WJ TF 8 B9 Е. 


3.3.1 模型 描述 


离散 混合 先 验 (Discrete Mixture Priors) 是 元 线性 回归 、 小 波 滤 波 靖 值 、 变量 
选择 等 问题 中 常见 的 先 验 模型 ,此 模型 的 优点 在 于 能 够 快速 获得 变量 的 稀疏 性 
并 迅速 收敛 。 对 于 未 知 变量 中 的 每 个 分 量 ,假设 其 先 验 为 : 
p(B Lo? = (1—w)6(B) + oy(8) (3. 33) 
其 中 0,090 定义 为 , 当 B = 0 概率 为 1, 其 他 情况 概率 为 0 的 函数 。w 是 混合 参 
数 , 其 值 为 0 或 1。 如 果 必 为 0, 则 该 8 = 0。.ow 控 制 着 户 的 稀 朴 度 (CS = K o | 
一 K У). 
YBO 是 B 关 0 时 收敛 的 函数 。 常 见 的 收敛 函数 有 正 态 概率 分 布 函 数 N(0， 
т?) 和 Laplace 分 布 函数 。 相 对 于 正 态 概率 分 布 函 数 ,Laplace 分 布 函数 的 尾部 概 
率 更 重 ,从 而 对 于 大 数据 问题 有 更 好 的 适应 性 。 通 过 这 两 种 常见 的 收敛 函数 的 形 
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式 可 以 看 出 ,模型 期 望 非 稀 下 部 分 尽 可 能 为 0, 从 而 增加 稀疏 度 。 
在 离散 混合 先 验 模型 的 基础 上 ,本 章 针 对 稀 朴 表示 问题 提出 如 下 模型 : 
y N(XB o= D 
B, ~ A — a 60 CB) + o, f (B, ) 
FBO ~ NO, o y) (3. 34) 
y, ~ ехр(т°/2) 
с? ~ Gammac(a, ,bo) 
其 中 fO ~ МОО, о?у), у, ~ expCeé /2) 是 Laplace 先 验 的 层次 表示 ,这 种 双 指 数 
层次 先 验 的 形式 与 正 态 先 验 相 比 ,能 够 获得 更 好 的 最 小 收敛 速率 。 同 时 , 双 指 数 层 
次 先 验 的 形式 为 不 同 的 系数 设 定 不 同 的 方差 ,能 够 根据 数据 特点 自 适应 调整 数据 
的 离散 程度 ,在 后 续 的 实验 中 对 此 有 讨论 。 
对 于 参数 о, 常见 的 先 验 为 p(w) =q (1 一 g)" "i, 其 中 g 是 超 参 数 。 这 种 
先 验 的 前 提 是 假设 关中 的 列 癌 量 之 间 是 不 相关 的 ,每 个 列 向 量 以 q 概率 对 观测 值 
y 不 产生 影响 ,或 以 概率 gf QD 对 观测 值 产生 影响 。 根 据 式 (3. 34)，y,B,o,c ,rz 的 
联合 分 布 为 : 
>- (y, — ХВ,)° + 20? -2,l&| 


b» «oo! st) cc exp q”! (1 — 9)» 
20° 





(3. 35) 
如 果 通 过 最 大 后 验 的 方式 计算 w 需要 对 所 有 p 进行 积分 ,再 通过 二 类 最 大 似 
然 估 计 (Type П MLE) 获 得 w, 使 其 满足 argmax logp(w | y), 但 此 过 程 中 高 维 积 


分 的 计算 不 那么 容易 。 
我 们 采用 贝 努 利 - 贝 塔 过 程 对 w 进行 先 验 设置 , w 服从 贝 努 利 过 程 : 
ш | B ~ BeP(B), = 1,2, (3. 36) 
В | «,В, ~ ВР(о,В,) 
т ЕТЖ В X rB 5 Тер А Z [н] AN AH Ж. И] 8, 的 选取 是 相互 独立 的 , 亦 即 o, 
ЇН] Е BS. AER p Fü Bü BE BJ JS E HEA JE ЛН BSEC UA. 
回顾 第 2 章 中 描述 的 离散 贝塔 过 程 , 其 产生 的 原子 点 与 基础 测度 B. 的 原子 点 
位 置 相同 ,权重 是 以 基础 测度 权重 为 参数 的 贝塔 分 布 。 我 们 以 Stick-breaking 过 
程 构建 离散 的 贝塔 过 程 ,具体 过 程 如 下 : 
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w, ~ Bernoulli(0,) 
= 2 b, 


Ch ~ Poisson(-b4) 
V (3. 37) 


p; ~ Beta(ag; ,a(l — q;2) 
ace T TI s, 
V, ~ Seti 

在 构建 过 程 中 , q, 由 Stick-breaking 过 程 获得 ,从 而 使 得 q, < L2 
满足 离散 贝塔 过 程 中 对 基础 测度 的 需要 ，B, = Duds. ;采样 的 原子 个 数 由 带 有 
参数 Lk 的 泊 松 分 布 获得 ,从 而 使 每 轮 原子 的 采样 在 有 限 的 空间 内 获得 ;对 于 构建 
过 程 的 收敛 性 , B= p, JEP р, — Betaaq; a — 2) » 能够 以 Levy 测度 对 
其 描述 : | 

L(dp.do) = > Beta(ag,,a(1 — g,) (dp)8, (dw) (3. 38) 
构造 过 程 符合 Lévy 过 程 。 根 据 Levy 过 程 收敛 定理 ,构造 过 程 是 收敛 的 。 

对 于 集中 参数 a 的 选取 ,考虑 到 提高 有 的 稀 朴 度 ,希望 贝 努 利 分 布 中 0, 尽 可 能 
为 0, 鉴 于 贝塔 分 布 Beta(a,b) 的 均值 为 一 ,选择 之 1。 同 时 ,在 ec 之 1 时 ,V, 的 
全 

3.3.2 推理 过 程 


本 章 采 用 Gibbs 采样 的 方法 获得 后 验 : 
(B.o.0.o^. cl y) (3. 39) 
以 Gibbs 采样 的 方法 获得 的 这 个 序列 通常 会 快速 收敛 到 o ~ p(w | y), 不 需 
要 进行 整体 的 后 验 计算 ,而 且 , 更 重要 的 是 ,这 个 序列 中 包含 所 需要 的 解 , 因 为 概率 
高 的 wi 一 定 经 常 出 现 ,而 不 经 常 出 现 的 分 量 则 可 以 丢弃 。 


通过 Gibb 采样 的 方法 生成 如 下 的 序列 : 
gp" „Са? ) (9 sor 30 (ey f? Саг y? sw UO ‚(12)‘ ө 
具体 采样 过 程 如 下 : 


(1) 对 进行 采样 : 
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В ~ fB | 0.0.0 sT y) 


А (3.40) 
= МА! X! y.c A ')Bernoulli( o; 0) 
HHA = X'X + D;' D, = diag(yi.* vn YR Jo 
(2) 对 c^ 进行 采样 : 
CP ~ foe?) | у.) 
se М+а, | y ХВ |? + b, (3.41) 
Е с 2 * 2 ) 
(3) 对 0 进行 采样 : 
根据 Beta 过 程 
(B, = Beta (e + > hoa atN— Slaai a] (3. 42) 
i=1 і= | 
(4) Xt o 进行 采样 : 
(o, )7 ме f (Co, )’ | СОА ) = /‹ Ca,” | PG»? ЕДА ‚@) 
(3. 43) 


其 中 ш, = Cots via oba et ek V XPATH у EX AA o et BOXE 
y 产生 影响 。 式 (3. 43) 的 分 布 是 贝 努 利 分 布 ,概率 分 布 函数 如 下 : 


P(C) = 1 | p. (с J” ug. i# yos Cds 44) 





ая 
其 中 
c= Uf | o, , (a): = DA 
= РВ | eis Gu = 0) (1—0) 
(5) 对 yi 进行 采样 : 
О) ССИ EYB Y s) 


(3.45) 





ЕФ т = 2K/ Siw)! 
具体 算法 如 表 3.2 Bron, 


第 3 章 贝 叶 斯 稀疏 表示 | 047 


表 3.2 DMPBP 算法 
算法 1: DMPBP 算法 
BA TX ss as aos dy 
输出 : В 
(1) 初 始 化 : SHAR y, = 1. = 0. АЈА; 
(2) 第 j 次 迭代 ,第 1 步 :根据 式 (3. 40) 得 到 采样 ; 
(3) 第 2 步 :根据 式 (3. 41) 得 到 od)” 采样 ; 
(4) 第 3 步 :根据 式 (3. 42) 得 到 0 采样 ; 
(5) 第 4 步 :根据 式 (3. (DARE (3.40) ,计算 о ; 
(6) 第 5 步 : 根 据 式 (3. 46) 得 到 y 采 样 ; 
MER~ OHEA. 


3.3.3 人 工 信 和 号 实验 结果 与 分 析 


为 验证 模型 的 性 能 ,首先 通过 稀 中 信 号 重 构 中 常用 的 单元 脉冲 信号 的 重 构 实 
验 进 行 测 试 。 采 用 单位 脉冲 信号 进行 重 构 实 验 , 可 以 在 可 控 的 不 同 信 号 长 度 、. 稀 玻 
BE .噪声 等 条 件 下 ,比较 各 种 方法 的 重 构 效 果 。 

实验 首先 生成 信号 长 度 为 N = 512, 其 中 包含 M = 20 个 峰值 ,峰值 所 在 位 置 
以 均匀 分 布 随机 选择 ,峰值 为 1。 如 图 3.5(a) 所 示 , 其 中 数值 1 表示 脉冲 信号 强 
度 。 再 为 生成 的 脉冲 信号 加 上 噪声 ,以 模拟 实际 信号 传输 中 产生 的 噪声 影响 。 在 
实验 中 ,噪声 信号 符合 NO.0. 005), 得 到 的 观测 信号 如 图 3. 5(b) 所 示 。 实 验 的 
目标 是 能 够 根据 观测 信和 号 重 构 原 始 脉冲 信号 的 脉冲 峰值 ,并 给 出 重 构 的 误差 , 重 构 
言 号 的 峰值 越 接近 原始 信号 的 峰值 , 旦 误差 越 小 , 则 表明 模型 的 效果 更 好 。 我 们 对 
本 章 提出 的 DMPBP 模型 和 其 他 方法 进行 比较 实验 ,实验 中 过 完备 矩阵 由 SVD 分 
解 获 得 , 重 构 的 错误 率 由 | iw — [|2 / || w SETH AP w Aw 分别 表示 估计 
向 量 和 真实 向 量 。 

首先 通过 基 追 踪 算 法 和 正 交 匹配 追踪 算法 对 信号 进行 重 构 , 如 图 3. 5(c) 和 图 
3. 5(d) 所 示 , 再 通过 基于 RVM、 贝 叶 斯 Lasso 和 DMPBP 的 信和 号 重 构 ,如 图 3. 5 
(e) ,08g) 所 示 , 这 三 种 方法 均 通过 差错 线 来 表示 协 方差 的 偏差 。 与 基 追 踪 算 法 和 正 
交 匹 配 追踪 算法 相 比 ,三 种 基于 贝 叶 斯 方法 的 压缩 感知 算法 均 能 够 对 单元 脉冲 信 
号 进行 较为 一 致 的 重 构 。 此 外 , 贝 叶 斯 压缩 感知 还 提供 了 对 于 未 知 信号 求解 后 验 
概率 的 方法 ,而 不 是 点 的 估计 ,这 个 概率 分 布 估计 可 以 用 协 方差 矩阵 对 系数 进行 
估计 。 

对 一 维 脉冲 信号 进行 重 构 实验 ,实验 结果 如 图 3.6 所 示 。 对 观测 信号 y 的 维 
EN 从 左 到 在, 从 上 到 下 分 别 设置 为 :100 一 190,300 一 420,500 一 590,800 一 100， 
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50 100 150 200 250 300 350 400 450 500 
(a) Original Signal 


10 20 30 40 50 60 70 80 90 100 
(b) Noise Signal 
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(c) Reconstruction with BP, К=100 

1 
0 
-1 

50 100 150 200 250 300 350 400 450 500 

(d) Reconstruction with OMP, K=100 
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0 
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(e) Reconstruction with RVM, K=100 

1 
0 
-] 
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(f) Reconstruction with Laplace, K=100 

1 
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50 100 150 200 250 300 350 400 450 500 
(g) Reconstruction with DP, К=100 


3.5 在 单元 脉冲 信号 上 的 重 构 结 果 


以 观察 不 同 维度 区 间 段 中 各 算法 的 重 构 误差 。 实 验 中 假设 原始 信号 稀疏 度 为 
N/2, 由 实验 结果 可 以 看 出 ，BCS 在 不 同 维度 下 的 误差 都 表现 为 最 大 , DMPBP # 
法 与 基 追 踪 算 法 的 重 构 误差 大 多 数 小 于 1, 且 两 者 之 间 的 差距 较 小 ,尤其 在 观测 信 
号 维度 较 大 的 情况 下 两 种 算法 的 重 构 误差 几乎 相同 。 

接 下 来 ,在 相同 观测 信号 维度 、 原 始 信 号 稀 玲 度 不 同 的 条 件 下 进行 实验 ,设置 
fs mü RE AP BW NX0.05, NX0.2, NX0.5, NX0.8 进 行 比较 ,实验 结果 见 图 3.7. 
ХР iit BE BR НО fi s. n Ap 3.7 中 左上 图 所 示 ，DBP 算法 的 效果 与 基 追 踪 和 
BCS ЖК, Жік К. ВЕЕ ДЕ НУК Т, DMPBP 算法 的 重 构 误差 小 于 其 他 
两 种 算法 。 

接 下 来 的 实验 对 一 维 正 态 分 布 随 机 信号 进行 重 构 , 这 更 接近 于 多 数 问题 的 分 
布 假设 。 实 验 中 由 N(0,8) 生成 随机 信号 ,通过 稀 玖 度 参 数控 制 , 设 定 其 中 有 部 分 
值 为 0。 图 3.8 显示 了 不 同 稀 下 度 下 一 维 高 斯 随机 信号 的 重 构 误差 , 稀 玖 度 分 别 
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图 3.7 对 稀 朴 度 不 同 的 一 维 脉冲 信和 号 重 构 误 差 比较 


为 NX0.05, NX0.2, NX0.5, NX0,8。 由 图 可 以 看 出 ,在 不 同 的 稀疏 度 下 ,与 基 
追踪 和 BCS 相 比 ，DMPBP 算法 均 取 得 更 好 的 重 构 误差 。 


050 | 统计 稀疏 学 习 中 的 贝 叶 斯 非 参 数 建 模 方法 及 其 应 用 研究 





380 400 






420 


Reconstruction Error 


360 380 400 420 
N 





0.5 
300 


320 


340 360 380 400 320 
N 


图 3.8 HAMETE — 2 i АТ Bë #L ë = == ARE ® 


为 了 验证 r 的 初 值 对 模型 的 影响 ,分 别 选择 c = 0.1.10. XE fs [Н] it BE BJ — HE 
高 斯 随机 信号 进行 重 构 实验 ,实验 结果 如 图 3. 9 所 示 。z 初 值 为 0 得 到 的 信号 重 构 


误差 远大 于 其 他 值得 到 的 重 构 误差 ,但 
较 小 。 
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=] § r= 10 之 间 的 信和 号 重 构 误 差 相 差 
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图 3.9 的 初 值 对 信号 重 构 误差 的 影响 
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3.3.4 手 写 数 字 识 别 实验 结果 


在 上 一 节 模拟 信号 重 构 分 析 的 基础 上 ,针对 DMPBP 模型 对 手写 数字 的 识别 
进行 实验 。 数 据 采用 USPS 美国 邮政 服务 手写 数字 识别 库 , 库 中 均 为 16 х 16 像 
素 的 灰 度 图 像 的 值 , 灰 度 值 已 被 归 一 化 。 库 中 共有 9298 个 手写 数字 图 像 , 其 中 
7291 个 用 于 训练 ,2007 个 用 于 测试 。 训 练 时 采用 本 书 下 一 章 的 字典 学 习 方法 获 
得 特征 字典 ,每 个 数字 对 应 的 特征 字典 包含 64 种 数字 的 形态 ,特征 字典 元 素 按照 





图 3.10 数字 特征 字典 


实验 主要 针对 数字 "3 “5 进行 识别 ,对 每 个 测试 集 图 像 取 其 在 特征 字典 上 计 
算 100 次 得 到 的 平均 稀 朴 表示 概率 5 幅 手 写 数字 "3”5” 及 其 通过 DMPBP 算法 
计算 所 得 的 平均 概率 如 图 3. 11 和 图 3. 12 所 示 。 从 实验 结果 可 以 看 出 ,算法 对 于 
数字 “3”5”" 拐 点 特征 明显 的 数字 识别 率 较 高 。 


3.4 小 25 


本 章 通过 扩展 稀疏 向 量 的 函数 形式 ,针对 稀疏 度 根 据 观 测 数据 自 适 应 调整 的 
需要 ,使 用 一 种 利用 离散 混合 先 验 贝塔 过 程 进行 稀 朴 表示 的 方法 。 该 方法 能 够 根 
据 观 测 数 据 在 已 知 测量 矩阵 上 的 稀 朴 投影 频率 调整 稀疏 向 量 的 稀 朴 度 , 并 且 模型 
中 以 高 斯 分 布 表示 的 拉 普 拉 斯 先 验 和 逼 近 1, 范 数 的 方法 ,能 够 进一步 提高 稀 朴 表示 
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人 


的 能 力 和 计算 速度 。 


0 


0123456789 0123456789 0123456789 0123456789 


图 3.11 数字 “3" 的 测试 图 像 及 其 概率 表示 


Ə 
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0123456789 0123456789 0123456789 0123456789 


В 3.12 数字 “5" 的 测试 图 像 及 其 概率 表示 
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第 4 章 
基于 聚 类 特征 的 贝 叶 斯 非 参数 字典 学 习 


在 稀 跑 表示 问题 中 ,选择 合适 的 基 是 保证 信号 稀 蚊 度 的 基础 和 前 提 。1993 年 ， 
Mallat % A $8 H ix: 5E & 70 s 5r HEOGE Jë = ETT ñ Bü 27 TRE E] EL AB , 29 BL Be z8 BJ DT AE 
提供 了 新 的 解决 思路 。 他 们 通过 对 自然 语言 的 分 析 , 说 明 过 完备 字典 对 信和 号 表示 
的 必要 性 ,强调 字典 的 构成 应 较 好 地 符合 信号 本 身 所 固有 的 特性 ,以 实现 匹配 追踪 
算法 的 自 适应 分 解 。 从 另 一 方面 ,“ 稀 跑 ” 使 得 过 完备 字典 成 为 可 能 。 

基于 过 完备 字典 的 信号 稀 朴 表示 问题 在 信号 处 理 `. 压 缩 感知 和 特征 提取 等 领 
域 展 示 了 让 人 印象 深刻 的 效果 。 在 最 初 的 求解 中 ,过 完备 字典 多 数 为 事先 构建 , 例 
如 通过 Wavelets, Curvelets, SVD 4) f 5$ Jy X , X HE pJ SE #& = J: ZE o Të = >K ft 
Mite PARA. AEH E BU E Së Ж = ИШЕНЕ £ 5 | Ж Rh Bü [ë = AY D XR OK fi. (A 
i #h М [8 АЕ BJ ah Se “ЧЕ Л ВЕ 0 F) ла ЛУ АЙ ЙЛ ЖЕ НО ЗЕ. ЖИПТИ. Fb Bü s [Fl 
题 中 过 完备 字典 的 生成 引起 研究 人 员 的 关注 ,用 学 习 的 字典 ,而 不 是 提前 生成 的 字 
典 ( 例 如 ,小 波 字典 ) 中 的 原子 的 线性 组 合 表 现 信 号 ,在 低层 图 像 处 理 任务 (例如 降 
噪 ) 中 取得 了 良好 的 效果 。 在 Candës 和 Tao 对 压缩 感知 的 描述 和 证 明 后 ,过 完备 
字典 的 学 习 成 为 稀 朴 问题 的 研究 热点 。 

本 章 对 采用 贝 叶 斯 非 参 数 方法 构建 字典 进行 分 析 和 研究 , ZE Bl — 35 A Bü de 2s 
的 贝 努 利 -贝塔 过 程 建 模 的 基础 上 ,给 出 一 种 基于 高 斯 过 程 聚 类 的 贝 叶 斯 非 参 数字 
典 学 习 方法 。 实 验 结果 证 实 了 该 方法 的 有 效 性 ,并 与 其 他 的 字典 学 习 方法 相 比 ,该 
方法 在 模型 精度 . 稀 朴 度 和 字典 维度 的 自 适应 性 上 有 一 定 优势 。 


4.1 字典 学 习 问题 


字典 学 习 问 题 的 描述 如 下 : 
对 于 观测 信号 y € R", 如 果 将 其 分 解 为 
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y = ХВ +£ (4.1) 
其 中 g 是 符合 N(0,o:7) 的 噪声 。 式 (4.1) 中 XE RY* AMBER 均 未 知 , 且 要 得 到 
Rm Bü BJ В. WA 
min || 8 || o s.t. у= ХВ + £ (4. 2) 
3X (4. 2) 描 述 的 问题 被 称 为 字典 学 习 (Dictionary Learning), 
在 字典 学 习 问 题 中 , 基 函 数 被 超 完备 的 元 余 函 数 库 所 取代 ,这 个 元 余 函 数 库 通 
常 被 称 为 见 余 字典 ,简称 “字典 ”。 字 典 中 的 元 素 被 称 为 原子 。 字 典 的 选择 应 尽 可 
能 好 地 符合 被 逼近 信号 的 结构 ,字典 的 构成 可 以 没有 任何 限制 。 从 宛 余 字 典 中 找 
到 具有 最 佳 线性 组 合 的 K 项 原子 来 表示 一 个 信号 A f = BJ R ВЕЛЕ Ur gk. P EE dE 
简 而 言 之 ,字典 学 习 问 题 包 含 两 个 方面 :中 构造 尽 可 能 好 的 过 完备 字典 X. 
@ 从 这 个 过 完备 字典 中 拣选 最 好 的 大 干 项 的 组 合 来 描述 观测 信号 ,给 出 信号 基于 
X BJ LR. 
字典 学 习 涉 及 很 多 方面 的 知识 与 应 用 。 神 经 科学 的 理论 研究 指出 ,基于 过 完 
备 字 典 的 稀 朴 表示 更 符合 哺乳 动物 视觉 系统 的 生物 学 背景 。 非 线性 通 近 理论 也 从 
理论 上 证 明了 基于 过 完备 字典 对 信号 的 逼近 要 优 于 正 交 基 。 在 图 像 处理 方 面 , 基 
于 过 完备 字典 能 获得 图 像 的 稀疏 表示 ,已 应 用 于 图 像 处 理 的 各 个 领域 。 
字典 学 习 研 究 的 问题 主要 包括 以 下 几 个 方面 :字典 学 习 理 论 的 研究 .基于 过 完 
备 字典 的 稀 下 表 示 快 速算 法 的 研究 .过 完备 字典 的 构造 研究 及 应 用 领域 的 研究 等 。 


4.2 现 有 字典 学 习 算法 


在 字典 学 习 问 题 被 提出 后 ,字典 学 习 算 法 层出不穷 。 字 典 学 习 包 含 的 两 个 方 
面 内 容 为 字典 学 习 提供 了 一 种 直观 的 方法 , 即 采 用 交 蔡 更 新 字典 D 和 稀疏 向 量 B 
的 方法 ,得 到 字典 和 稀疏 信号 的 收敛 值 。 

主要 方法 有 贪 禁 法 .最 大 似 然 或 最 大 后 验 法 、 在 线 字 典 学 习 法 等 ,这 些 方法 都 
采用 字典 和 稀 玖 向 量 交替 优化 的 方法 进行 求解 。 


4.2.1 Ra 


1) 最 佳 方向 方法 

最 佳 方向 方法 (Method of Optimal Directions, MOD) fE GLA (Generalized 
Lloyd Algorithm) 算 法 基础 上 对 向 量 和 原子 进行 优化 计算 。 算 法 在 初始 化 时 从 输 
入 信号 中 随机 地 选取 K 个 列 向 量 ,并 对 字典 原子 进行 规范 化 处 理 ; 在 迭代 过 程 中 ， 
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根据 当前 字典 ,利用 OMP 算法 更 新 稀 朴 向 量 ; 在 更 新 字典 时 ,采用 最 小 二 乘法 根 
据 当前 稀 朴 向 量 更 新 字典 ,使 式 (4. 3) 最 小 。 


leli= I y— xp l4 (4. 3) 
其 中 | + | 表示 VANES [DIAG B = LB engl. 得 到 XX 的 更 新 公式 为 : 
ХХ“! = УВ” 2 (pog у (4. 4) 


在 更 新 字典 过 程 中 ,如 果 字 典 中 某 原子 二 范 数 接近 于 OA Y XETT F — $6 XR 4X 
计算 应 该 忽略 该 列 原子 , 则 重新 从 输入 信号 中 随机 地 选取 1 个 列 向 量 代替 该 原子 ， 
重复 迭代 操作 直到 收敛 。 

2) K-SVD 算法 

K-SVD 算法 是 目前 字典 学 习 中 最 为 流行 的 算法 之 一 。 在 求解 稀疏 向 量 时 , 同 
MOD 一 样 ,根据 当前 所 得 的 过 完备 字典 D, 采用 OMP 算法 计算 信和 号 在 字典 上 的 
iwi ARM. K-SVD 算法 的 字典 与 MOD 不 同 。K-SVD 算法 在 固定 B ЖЕЙ 
的 过 程 中 ,对 字典 中 的 原子 +, 依次 更 新 。 从 当前 获得 的 已 中 , 取 与 字典 第 & 列 原 
子 相 应 的 & 行 构成 第 5 行 向 量 ,通过 





| у= ХВ || += у= 2287 E 
= Пу 286 — ug M To 
= | = — xf lt 
把 XB 降 为 天 一 1 的 矩阵 ,固定 天 一 1 个 对 象 求 第 k SAA Bro Ж Br 
中 不 为 0 的 那些 分 量 构成 向 量 peo Bre 的 维度 小 于 等 于 PBI。 相应 地 得 到 与 Bee 对 应 的 
yk ЖП вк, 则 式 (4.5) 可 表示 为 
| ef 一 xui ||: (4. 6) 
将 式 (4.6) 中 ef 用 SVD 将 其 分 解 为 ef = UAV", 得 到 的 U 中 的 第 一 列 为 xz， 
V 中 的 第 一 列 为 Bk。 字典 的 一 次 更 新 需要 进行 K 次 SVD 分 解 。 正 是 因为 如 此 , 算 
法 得 名 为 K-SVD, 
K-SVD 每 次 更 新 其 字典 原子 和 其 对 应 的 稀疏 系数 ,直到 所 有 的 原子 更 新 完 
毕 。 重 复 迭 代 直 到 收敛 就 得 到 优化 的 字典 和 稀疏 系数 。 
采用 贪 禁 法 通常 可 以 得 到 最 优 解 ,但 由 于 迭代 次 数 和 收敛 速度 的 影响 ,算法 运 
行 速度 较 慢 。 研 究 者 对 K-SVD 算法 的 改进 和 优化 提出 了 不 少 新 的 方法 ,从 一 定 程 
度 上 提高 了 算法 的 计算 速度 。 


4.2.2 贝 叶 斯 方法 
1) 最 大 似 然 估计 法 
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基于 最 大 似 然 估 计 的 字典 学 习 算 法 采用 梯度 优化 (Gradient Optimization ) 的 
方法 ,在 对 字典 的 更 新 过 程 中 ,通过 对 原子 进行 规范 化 处 理 来 降低 误差 。 
对 于 全 个 相互 独立 的 观测 信号 y = (y, yr), 字典 X 的 最 大 似 然 估 计 模 
型 为 
Хм = argmax p (Y ; X) 一 argmax] [ p(y,1X) (4.7) 
其 中 
pO X) = | роу, охар = (роу, | B: X) p(B) dp (4. 8) 
式 (4.7) 也 可 以 写 为 : 
Ar = argmin— > p(s) (4. 9) 
对 此 模型 的 计算 ,需要 根据 对 8 和 BIBLE ЖЕТ ARABE Ee 
分 ,但 这 个 积分 运算 通常 是 不 易 处 理 的 或 计算 上 是 不 可 行 的 ,因此 ,需要 对 积分 采 
用 逐步 逼近 的 计算 方法 。 
2) 最 大 后 验 估计 (MAP，) 
基于 最 大 后 验 估计 的 字典 学 习 算法 采用 贝 叶 斯 模型 ,在 交 蔡 更 新 过 程 中 计算 
稀 玻 向 量 和 字典 原子 的 最 大 后 验 来 获得 最 优 解 。 
未 知 信号 В 的 似 然 函数 为 : 
p(B) = 6(B— PX)), 
BCX) = argmax р (y, ‚В Х) 


Ж K ЖЫ X 的 当前 估计 值 。 在 此 假设 下 , 式 (4. 9) 变 为 
Хм. = argmin 一 > || y, — XB ||: /20° (4.11) 
Kenneth 等 人 利用 式 (4. 100 AY 38 3m Jr 1 , Tk R: 38: Hi BS >K ES Жл HI TAS 
FOCUSS ЖШ E28 HT A IR] ZJ RR TE FEE X 的 最 大 后 验 估计 的 近似 逼近 算 


ik. Yaghoobi 等 人 提出 一 种 对 字典 采用 了 凸 松弛 约束 的 方法 ,采用 了 
Majorization Minimization Algorithm XJ F HL All fi ii [9] Ht HE 11 5 FE. 


4.2.3 在 线 方法 


Mairal 等 人 根据 凸 优化 理论 ,对 由 工 个 采样 y, 构成 采样 矩阵 同时 求解 稀 玖 和 矩 
ВЕ в 和 最 优 字典 X 进行 分 析 , 证 实 最 优 字典 和 稀 朴 向 量 是 非 凸 的 ,而 将 问题 分 为 
固定 字典 求 稀 朴 向 量 、 固 定 稀 朴 向 量 求 最 优 字 典 则 分 别 是 凸 的 。 因 此 ,采用 交替 求 
解 稀 玖 因子 和 字典 的 方法 ,利用 和 矩阵 分 解 对 字典 学 习 问 题 进行 求解 。 该 文 对 字典 


(4. 10) 
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的 约束 为 : 
(X€ C.C A XC ВМК st Vj—l,,.K, dld;<1) (412 
在 此 约束 下 利用 一 阶 投影 随机 梯度 下 降 算 法 对 字典 进行 更 新 C 
X, = Ic X. 4 — 8, Val X132] (4. 13) 
并 对 字典 的 收敛 性 进行 了 证 明 ,并 通过 图 像 降 噪 实验 展示 了 该 算法 在 获得 同样 降 
噪 效果 的 条 件 下 ,计算 速度 优 于 K-SVD。 


4.2.4 非 参 数 方 法 


上 述 方法 均 假 设 字典 矩阵 的 维度 K 固定 不 变 , 如果 К 随 着 观测 数据 发 生变 
化 ,需要 借助 非 参数 方法 。Zhou 等 人 给 出 一 种 基于 贝塔 过 程 的 非 参 数 方法 BPFA, 
为 字典 矩阵 中 各 元 素 设 置 均值 为 0 ,方差 为 1/N 的 先 验 ,通过 Gibbs 采样 计算 字典 
原子 的 后 验 。 尽 管 该 方法 没有 从 理论 上 进行 证 明 其 生成 的 元 余 矩 阵 满 足 RIP 条 
件 ,但 图 像 降 噪 实验 表明 高 斯 先 验 能 够 反映 图 像 的 数据 特征 ,与 DCT, K-SVD 算 
法 相 比 ,基于 Beta 过 程 的 字典 学 习 算法 对 图 像 降 噪 的 效果 优 于 ОСТ 字典 ,与 K- 
SVD 算法 效果 相当 。 


4.3 约束 等 距 性 条 件 


2001 年 Donoho 等 人 对 lo 范 数 和 4 范 数 基于 两 个 标准 正 交 基 构 成 的 联合 字 
典 具 有 相同 唯一 解 进行 讨论 , 即 对 于 两 个 标准 正 交 基 @, 妥 构成 的 字典 CO, v]. 如 
果 观 测 信 号 y 可 以 由 稀 朴 信号 x A.B y = [Ф,\Р]х, B. | x |; < 0.9142/M, W 
4 范 数 最 小 解 和 4 范 数 最 小 解 一 致 ,其 中 M= sup (| giog D. 
Candes 和 Tao 证 明了 过 完备 字典 必须 满足 约束 等 距 性 条 件 (Restricted 
Isometry Property，RIP), 即 对 于 任意 c € R^ 和 常数 ss € (0,1), ШЖ 
(1—6s) lel Il efs 15 01+ 95) I cll? (4. 14) 
WondEnTCU.KNITI < S. XXX 中 由 索引 S 所 指示 的 相关 列 构成 
的 大 小 为 NX || S || 的 子 和 矩阵 , 则 称 和 矩阵 关 满 足 约束 等 距 性 。 通 常 ,对 于 一 个 S 维 
Wi Bi ë В. 可 以 从 观测 信号 у 精确 重 构 x 的 充分 条 件 是 矩阵 X 对 于 任意 c € RU 
和 常数 ôs Є (0,1) 有 2S 阶 约 束 等 距 性 , 即 
(1—8) lellis Iles 115 (1+) | els (4. 15) 
mw HP TC {1, K} || Tl] «2S. 
J PB E ZR ВА, Н ЖЕЕ X KARE RAK K 维 信号 中 最 大 的 5 
个 值 稳定 重建 所 需 的 采样 为 S x log K/ S) 。 然 而 ,尽管 约束 等 距 性 条 件 拥 有 完美 
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的 特性 ,但 不 能 保证 满足 该 条 件 的 矩阵 FEE. REARS RRA HE 
X 是 统计 稀 朴 学 习 和 压缩 感知 问题 中 的 重要 研究 内 容 。 


4. 4 带 有 聚 类 特征 的 贝 叶 斯 非 参 数字 典 学 习 


通过 现 有 算法 对 图 像 的 字典 学 习 的 结果 可 以 得 知 , 图 像 中 各 原子 y; 在 经 过 字 
Jt. X 得 到 的 稀疏 表示 向 量 B, 之 间 不 是 随机 分 布 的 ,它们 的 位 置 不 确定 性 通常 与 图 
像 信号 的 非 本 地 自 相 似 相 关 ,这 就 意味 着 ,利用 这 种 位 置 相关 约 束 得 到 更 为 稀 玻 的 
表达 的 概率 更 高 。 聚 类 通常 在 处 理 这 种 非 线 性 约束 (位 置 相 关 ) 问 题 中 取得 突出 的 
AUR. ЖҮ ЖН AE Se À 28 Bü Ze z 38 ЛП P Bü Жел A B: B) 1, 范 数 约束 ,并 在 计算 中 
Д 范 数 替代 L 范 数 以 获得 更 优 解 。 贝 叶 斯 非 参 数 方法 对 于 聚 类 问题 以 其 能 够 
自 适应 得 到 类 别 特征 获得 极 大 的 关注 ,然而 在 贝 叶 斯 非 参数 中 将 稀 琉 表示 和 聚 类 
共同 构建 相互 促进 的 协同 模型 并 不 容易 ,一 方面 , 稀 琉 表示 和 聚 类 分 属 不 同 运算 等 
级 的 问题 ,另外 ,对 稀 朴 表示 和 聚 类 构成 的 模型 的 后 验 计 算 并 不 容易 。 本 章 通 过 对 
图 像 降 噪 数据 进行 分 析 ,给 出 一 种 带 有 聚 类 特征 的 贝 叶 斯 非 参 数字 典 学 习 方 法 。 


4.4.1 模型 描述 


近年 来 的 研究 表明 通过 一 定 概率 分 布 独立 同 分 布 生成 的 (合理 尺度 的 ) 随 机 和 挎 
阵 能 够 以 高 概率 满足 约束 等 距 性 条 件 。Candas 在 2006 年 证 明了 当 和 矩阵 Ф 是 高 斯 
随机 和 矩阵 时 ,和 矩阵 X= o 能 够 以 较 大 概率 满足 约束 等 距 性 条 件 , E: rh Vr Et IE 22 #E 
换 基 。 因 此 ,我 们 通过 选择 一 个 大 小 为 N X ce 的 高 斯 矩阵 得 到 字典 X. 字典 中 的 
值 满 足 N(0,1/K) 的 独立 正 态 分 布 。 
接 下 来 ,为 字典 进行 先 验 约束 。 单 位 Frobenius 范 数 对 字典 中 所 有 原子 进行 
约束 ， 
| | = tr(XIX)=1 (4.16) 
FUE iX BHAA ЖОШ ot BC E Bj] JE: n] LA 49 2 P Bü ЖЕ E] , ЇН 2J 8 ph zy TA. [SS H š 
位 Frobenius 范 数 约束 可 能 引发 X 中 多 项 原子 趋 近 于 0, 原 子 的 模 很 小 ,使 得 在 求 
解 稀 朴 表示 中 与 该 原子 对 应 的 稀疏 系数 很 大 ,这 些 原子 在 稀 朴 分 解 中 被 充分 利用 
而 不 断 得 到 更 新 ,而 其 他 原子 一 直 得 不 到 更 新 。 
与 单位 Frobenius 范 数 约束 相 比 , 列 规范 化 约束 更 严格 。 对 字典 A 中 每 个 原 
ate 
| |2= C, = 1,2, (4.17) 
B А НОА E: — 4 ЖШ. š 48 ZE Ж Bü PAPE HY B A= DERE BJ Xe PE WA YQ 
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分 布 。 
结合 单位 Frobenius 范 数 约束 和 列 规范 化 约束 ,设置 字典 先 验 为 : 
| x, [= 2 k= 12K, Ec» (4. 18) 


对 于 字典 维度 К 00 , 贝 叶 斯 非 参 数 方法 中 估计 的 字典 维度 随 着 观测 数据 发 生变 
化 ,因此 ,在 对 字典 原子 进行 更 新 时 ,根据 当前 的 字典 维度 K 进行 规范 化 约束 。， 
对 稀 蚊 表示 的 求解 采用 本 文 前 一 章 的 方法 , 即 以 贝 努 利 -贝塔 过 程 描述 稀 疏 疝 
量 中 的 0 4 Br DASE Pi ñb Bu EE MY 1 分 量 部 分 仍 以 层次 高 斯 分 布 获得 Laplace 分 布 ; 
对 于 0 分 量 的 部 分 ,根据 对 图 像 数 据 的 分 析 , 采 用 均值 为 0, 以 方差 尽 可 能 小 的 高 
斯 分 布 来 逼近 。 
在 上 述 分 析 基 础 上 ,建立 模型 如 下 : 
y; ~ МОХВ, 50° I) 
х, ~ NOMEN) ond. 
В ~ (1— 908, CB) +o N (и, A e! Ik) 
p, ~ GMM(G, ) 
假设 ó, (8) 用 均值 为 0, 方差 为 a ofx 的 高 斯 分 布 近 似 , 其 中 oj ~ 1С(1,у/2), 
则 将 对 式 (4. 19) 中 参数 积分 后 得 到 


2 
BOX) ос Lexpt— 1 [| у, — xg; 2+ A || x, pe 
Z 26 Qo 


e | B | +А | B—ywe 122) 
其 中 Z 是 标准 化 常量 。 似 然 函 数 中 字典 满足 式 (4. 12), et 8, 的 表示 既 包 含 
I, 范 数 约束 ,也 包含 其 所 属 类 的 1, WKAR MRTT ERAR, M a 均 为 0， 
似 然 函 数 中 对 B 的 表示 与 弹性 网 对 稀疏 向 量 的 约束 类 似 。 
式 (4.19) 中 ww 以 Bernoilli-Beta 3E fg И: 


(4. 20) 


K 
wi ~ | [Bernoulli(@,, ) rim 


0., ~ Beta(a/ K,bCK — D/K) 
ATTE ep ЖИ In] E AE 0 уН. Hi HEL (GH Je B ЖЕ ЖЕКЕ n, ORE TRES 
型 表示 ,但 其 中 高 斯 混合 模型 的 混合 度 是 未 知 的 ,因此 采用 狄 利克 雷 过 程 表 示 。 式 
(4.19) 中 ,作为 类 别 的 表示 ,采用 多 项 式 -高 斯 过 程 : 

c, ~ Multnomial(l,**,S,7) 


С, ~ DPGG;) (4. 22) 


ЖИК И ЛОО 
g 一 Dirichlet( gia g? 
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4.4.2 模型 推理 


对 式 (4. 19) 的 求解 ,我 们 采用 最 大 后 验 概率 估计 (MAP) 和 Gibbs 采样 算法 
(block Gibbs sampler)。 在 推理 过 程 中 ,对 于 由 贝 努 利 -贝塔 过 程 生 成 的 o, 和 由 多 
项 式 -高 斯 过 程 生 成 的 с„, 通过 区 域 Gibbs 采样 的 方法 采样 生成 。 对 于 模型 中 x, 
和 pB;, 则 可 以 通过 最 大 后 验 概率 估计 进行 计算 。 在 计算 中 ,对 于 参数 ,为 其 假设 
先 验 为 of ~ IG(ao bo), HP HB а,Ь, 之 间 的 比值 越 大 , 则 天 越 接 近 于 0。 对 于 
参数 о, 由 于 对 字典 的 约束 为 标准 列 向 量 约束 , xix; 达 1, 因此 ,其 对 取 值 a。<< N. 
À FAY 326 C55 8E Е [8] gz BY ñ Pú £ FEF E OX CEU rh k x: À 的 先 验 分 布 为 IG(co ,du )， 
在 采样 中 4 值 不 断根 据 观 测 数据 进行 更 新 。 超 参数 y 作为 <” 的 参数 , a 的 期 望 
接近 于 0, 所 以 y 鲜 2。 对 于 Beta 过 程 中 的 超 参数 a,b, E Y BC ib Bü [E] sz BJ Ñ Bu PZ 


AK ,为 获得 尽 可 能 稀 玻 的 表示 , а, BS ELI i 2 < K, 尽管 人 一 so, 在 初始 化 


过 程 中 可 以 根据 具体 问题 设 定 一 个 足够 大 的 数 L, 令 = < L. 
为 了 计算 的 方便 , 令 P 个 y, 构 成 NXP Шен, 具体 计算 过 程 如 下 : 


(1) 更 新 В: 
MB. A: 
к 
p(B, |~) cc МОу,; ХВ, o! Ly) | | Bernoullico, ;0,) 
Ел (4. 23) 
((1 — оъ) №0, a7 5) + o4 N Qu 4A 022) 
通过 最 大 后 验 概 率 估 计 更 新 B 得到: 
В. = (GE + XK ° шот} | diagGe;) CXT y; — Auda) (4. 24) 
(2) 更 新 X: 
根据 式 (4. 19) 有 : 
p(x, |~) ос TING X8 so ING 0:2 N^ In) (4. 25) 
i=l 
根据 最 大 后 验 概率 估计 更 新 X 492; 
X = УВГ (BB? + No? /ao Ik) (4. 26) 
(3) 更 新 бу: 


根据 贝塔 过 程 的 后 验 为 式 (2. 460 ,得 到 Ou : 


N 
a 
: K 2 04 Ci == ç) 
ба = ТЫК ли ы == (4.27) 
+= + >с, = s) 





a 
K 
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(4) 更 新 у: 
根据 狄 利克 雷 过 程 后 验 为 (2. 24) ,得 到 у, : 


1 ` = 
| st Zl == $) 
аа гато ааа (4. 28) 
(50H 3 G: 
G, 的 混合 权重 ,均值 和 方差 通过 cc, = s B9 B; 计算 ,参考 Bishop 编写 的 Pattern 


Recognition and Machine Learning 书 中 第 9 章 中 关于 混合 高 斯 的 计算 ,得 到 : 








М, = Ste, = s) 
1 N 
ш = ту Dawud Cor = x 
d: (4. 29) 
"E N end Ce = pia дй = ш 
_ М, 
T. N 
(6) 更 新 w;: 
w; 由 贝 努 利 分 布 采样 生成 ， 
全 eS Bernoulli 21 Z (4. 30) 
其 中 pi 是 wx = 1 的 概率 , 且 
Pi = 0,ехр(— zs (Baxi, — 2px! ху) (4. 31) 
G 
其 中 x, = y; — XB; + xia o 
Po FE we = 0 的 概率 , 且 
Po = 1— 0, (4. 32) 
(7) 更 新 cis 
c, EH S 维 的 多 项 式 分 布 采样 获得 ,其 后 验 : 
ple = з | ~D plw; | 0p (В, | GOp Cc, = d | n) (4.33) 


K 


其 中 boi | @,) = [112 (1—0,)" , plc =d | 7) == nis), P&B: | G, ) 是 根据 GMM 


k=1 


Ga ЯНИ РА. 
在 上 述 推理 演绎 的 基础 上 ,算法 CLBP 如 表 4.1 所 示 。 
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表 4.1 CLBP 算法 


算法 2, CLBP 算法 
输入 : lys eee yp) 
输出 : 


(1) 初 始 化 :通过 SVD 得 到 ; 

(2) 根 据 式 (4. 240 3E E ,并 根据 式 (4. 26) 计 算 当 前 值 ; 

(3) 对 每 个 ,根据 式 (4. 27) 计 算 6, ,并 通过 式 (4. 29) 得 到 G. 采样 ; 
(4) 分 别 根据 式 (4. 30) 和 (4. 33) 对 o, с, 采样 ; 
(HIER (22 — (D ÉL CSI, 


4.4.3 实验 结果 与 分 析 


本 章 采 用 对 灰 度 图 像 的 降 噪 来 验证 模型 的 有 效 性 ,实验 运行 环境 为 四 核 i5 
280GHz 处 理 器 , 8GB AZ. matlab 版 本 为 R2010b。 首 先 对 200 X 200 87; JE TE 
盘 灰 度 图 和 圆 形 棋盘 灰 度 图 进行 降 噪 实验 ,噪声 标准 差 o = 50, 与 参数 方法 中 流 
行 的 K-SVD 算法 和 贝 叶 斯 非 参 数 方法 中 基于 贝塔 过 程 的 ВРЕА 算法 进行 比较 ， 
结果 如 图 4.1 和 4.2 所 示 。 图 中 第 一 行 左 侧 为 原 图 , 右 侧 为 加 噪 图 像 ; 第 二 行 是 通 
过 不 同 字典 得 到 的 降 噪 后 的 效果 图 ;第 三 行 是 通过 不 同 算法 得 到 的 字典 ,由 左 到 右 
分 别 是 通过 小 波 字 典 、KSVD 字典 、BPFA 字典 和 CLBP 字典 ,字典 元 素 按 照 升 序 
排列 。 

在 对 方形 棋盘 的 降 品 中 ,基于 贝 叶 斯 非 参数 的 方法 BPFA 和 CLBP 效果 都 优 
于 K-SVD 算法 ,对 圆 形 棋盘 的 降 品 效果 不 及 K-SVD 算法 。 两 种 贝 叶 斯 非 参数 方 
法 之 间 ,本 章 提 出 的 CLBP 算法 优 于 BPFA, 

再 对 标准 的 灰 度 图 进行 比较 ,选择 256 X 256 的 Lena 图 进行 实验 ,噪声 标准 
差分 别 选择 c = 25 和 = 50, 实验 结果 如 图 4.3 和 4.4 所 示 。 

由 实验 结果 可 以 看 出 ,基于 贝 叶 斯 非 参 数 的 方法 BPFA 和 CLBP 均 优 于 基于 
参数 的 K-SVD 算法 , 且 CLBP 算法 的 效果 略 好 于 BPFA 算法 ,这 说 明 增 加 了 聚 类 
特征 的 字典 学 习 对 字典 生成 的 效果 和 稀疏 表示 的 精度 都 有 一 定 的 提高 。 

实验 还 对 其 他 标准 灰 度 图 进行 降 噪 实验 ,比较 结果 见 表 4.2。 表 中 对 应 噪声 
标准 差 的 三 行 分 别 是 K-SVD, BPFA 和 CLBP 三 种 算法 的 降 噪 结果 ,最 好 的 降 品 
结果 以 粗 体 表示 。 从 结果 可 以 看 出 ,噪音 强度 越 高 ,本 章 的 CL BP 算法 降 品 效果 
与 其 他 两 种 算法 相 比 更 好 。 算 法 对 纹理 信息 比较 多 的 图 像 处 理 效果 更 好 ,和 且 能 保 
留 图 像 的 细节 信息 ,具有 更 高 的 峰值 信 噪 比 。 
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The DCT dictionary The KSVD dictionary The BP dictionary The CLBP dictionary 


图 4.1 方形 棋盘 降 品 效果 比较 ,= 50 





The DCT dictionary The KSVD dictionary The BP dictionary The CLBP dictionary 


43.2 圆 形 棋盘 降 品 效果 比较 ,一 50 
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TheDCT dictionary The KSVD dictionary The BP dictionary The CLBP dictionary 


4.3 Lena 降 品 效果 比较 ,c = 25 





Original clean image Noisy image, 14.144dB 








TheDCT dictionary TheKSVD dictionary TheBPdictionary TheCLBP dictionary 


4.4 Lena 降 品 效果 比较 , o = 50 
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表 4.2 降 噪 效果 比较 


G Board House Barbara Peppers Boat 











35. 3288 | 35. 7194 33.9648 | 33.0361 | 33.2668 

10 | 33.3381 ‚0069 I 33. 5645 .1978 | 33.1549 
. 9859 ‚8315 I 33.4818 | 33.0838 | 33.1625 

‚4482 | 31. 30. 2945 ).0244 | 29.4800 
20 ; 9. „3550 | 30. 0986 .3309 | 29.6189 
‚4017 I 30. 0553 .3580 | 29.6306 

29.709 | 29. 28.0772 .8573 | 27.4420 

30 29. 7898 28. 0947 .0301 | 27.6281 
29. 8238 28. 1133 .1599 | 27.6552 
27.6555 26. 5685 5.5140 | 26.1013 
40 ; 5. 28.0798 26. 8205 5.5732 | 26.2078 
28. 0854 26. 8336 .6581 | 26.2222 
































26. 3316 : 25. 3988 3. 8883 25.0154 + 
50 Я 26. 6080 08 ‚7140 24.2172 25. 1676 
‚6689 : . 7428 . 2694 25. 1815 











. 4861 5. 2107 s . 3645 22. 8691 24. 0950 

60 . 8754 . 4840 i 5. 0072 3. 1286 24. 2708 
. 0388 . 5322 Ç ‚0212 ‚ 1294 24. 3148 

23. 286 22.704 . 0768 А 3. 2922 ‚7251 23.2977 

70 23. 5052 21. 5209 . 3508 ç 24. 1779 . 4899 23. 6383 
23. 5665 21. 5942 24. 412 : 4. 2451 . 6081 23. 6736 

















4.5 小 


稀 朴 降 维 在 图 像 字典 学 习 中 有 非常 重要 的 应 用 ,本 章 针 对 字典 学 习 建 模 中 存 
在 的 字典 维度 不 能 根据 观测 数据 自 适应 调整 的 问题 ,以 图 像 降 噪 为 应 用 对 象 , 给 出 
了 一 种 基于 高 斯 过 程 聚 类 的 贝 叶 斯 非 参数 字典 学 习 方 法 。 基 于 高 斯 过 程 聚 类 的 建 
模 方法 更 适合 图 像 数 据 的 特点 ,能够 使 字典 和 稀疏 表示 模型 在 图 像 数 据 集 上 具有 
很 好 的 推广 性 。 在 图 像 降 噪 过 程 中 ,由 样本 集 自 适应 生成 的 列 约束 高 斯 字典 作为 
对 包含 聚 类 特征 的 稀疏 向 量 的 稀 玻 表示 测量 矩阵 ,使 字典 学 习 的 解 具 有 一 定 的 基 
于 模型 解释 的 可 靠 性 ,获得 的 字典 和 稀 朴 表示 具有 优化 的 解 。 实 验 结果 表明 该 方 
法 在 模型 精度 、. 稀 朴 度 和 字典 维度 的 自 适应 性 上 有 优势 。 并 且 在 图 像 降 噪 过 程 中 ， 
通过 设 定 可 调整 参数 可 以 控制 降 噪 过 程 以 获得 更 可 靠 的 优化 预测 解 ， 
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聚 类 分 析 是 发 现 数据 信息 中 存在 的 各 种 关系 和 规则 ,进行 快速 信息 检索 的 有 
效 途径 ,在 模式 识别 .图像 处 理 .计算 机 视觉 .模糊 控制 等 领域 有 广泛 的 应 用 。 聚 类 
将 物理 或 抽象 对 象 的 集合 分 组 成 为 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 , 它 所 生成 
的 类 的 集合 是 一 组 数据 对 象 的 集合 ,同一 个 类 中 的 对 象 彼此 相似 ,与 其 他 类 中 的 对 
象 却 相 异 。 一 个 好 的 聚 类 算法 应 能 识别 任意 数据 形态 ,对 数据 的 输入 顺序 不 敏感 ， 
随 输入 数据 的 大 小 线性 扩展 , 当 数 据 维 数 增加 时 也 具有 良好 的 可 伸缩 性 。 常 用 的 
分 割 聚 类 方法 .层次 聚 类 方法 基于 密度 的 聚 类 方法 .基于 网 格 的 聚 类 算法 等 在 维 
数 比 较 低 的 情况 下 能 够 生成 质量 较 高 的 聚 类 结果 ,但 不 能 适应 高 维 数 据 特 别 是 高 
ий Жн ЖЕ Ж. 

传统 的 聚 类 算法 可 分 以 下 五 类 :中 划分 方法 .将 数据 集 随 机 划分 为 个 子 集 ， 
随后 通过 迭代 重 定位 技术 试图 将 数据 对 象 从 一 个 簇 移 到 另 一 个 艇 来 不 断 改 进 聚 类 
的 质量 。 包 层次 方法 ,对 给 定 的 数据 对 象 集合 进行 层次 的 分 解 , 根 据 层 次 的 形成 方 
法 ,又 可 以 分 为 凝聚 和 分 型 方法 两 大 类 。 包 基于 密度 的 方法 ,根据 领域 对 象 的 密度 
或 者 某 种 密度 函数 来 生成 聚 类 ,使 得 每 个 类 在 给 定 范围 的 区 域内 必须 至 少 包 含 一 
定数 目的 点 。@@ 基 于 网 格 的 方法 ,将 对 象 空间 量化 为 有 限 数 目的 单元 ,形成 一 个 网 
格 结构 ,使 所 有 聚 类 操作 都 在 这 个 网 格 结构 上 进行 ,使 聚 类 速度 得 到 较 大 提高 。® 
基于 模型 的 方法 ,为 每 个 类 假定 一 个 模型 ,寻找 数据 对 给 定 模 型 的 最 佳 拟 合 。 

传统 聚 类 方法 是 基于 距离 进行 聚 类 的 ,数据 间 相 似 性 的 计算 一 般 通 过 欧 几 里 
得 距离 .绝对 值 距离 或 明基 考 斯 距离 等 方法 进行 。 而 这 些 聚 类 方法 在 高 维 数据 集 
中 进行 聚 类 时 ,主要 遇 到 两 个 问题 :中 高 维 数据 集中 存在 大 量 无 关 的 属性 ,使 得 在 
所 有 维 中 存在 得 的 可 能 性 几乎 为 零 。 包 高 维 空间 中 数据 比 低 维 空间 中 数据 分 布 要 
稀 玻 ,其 中 数据 间距 离 几乎 相等 是 普 凯 现象 。 对 于 高 维 稀 玻 数据 ;传统 聚 类 方法 很 
难 反 映 数据 之 间 的 差异 程度 ,从 而 难以 得 到 正确 的 聚 类 结果 。 

本 章 首 先 对 贝 叶 斯 非 参数 方法 实现 聚 类 的 过 程 进行 分 析 , 并 对 其 进行 应 用 验 
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证 ,给 出 适应 背景 剪除 数据 特点 的 狄 利克 雷 聚 类 方法 ;再 对 高 维 稀疏 聚 类 问题 ,以 
Polya Tree 为 建 模 基 础 ,给 出 一 种 高 维 稀 朴 数据 聚 类 的 方法 ,通过 图 像 标注 为 应 用 
和 验证 平台 ,证实 算 法 的 有 效 性 。 


1 贝 叶 斯 非 参 数 聚 类 


SY € R” 是 P 个 观测 数据 (y, € К“), 的 集合 , 聚 类 的 ^ FR 
BJR des K), 使 得 Y 中 每 个 数据 都 映射 到 K 秘 中 的 一 个 。 用 概率 的 方法 
对 聚 类 问题 进行 建 模 : 

f(y) = argmax Ply;;0.), k = 1, , K (5.1) 
其 中 oo, 是 第 TRIS. 例如, 如果 PCy :0,) 是 高 斯 函数 , 则 和 是 第 个 高 斯 
分 布 的 均值 和 方差 。 如 果 采 用 贝 叶 斯 方法 ,需要 给 0, 赋予 先 验 概率 。 

在 有 观测 值 Y 的 条 件 下 ,根据 贝 叶 斯 公式 ,参数 8 = 100, 0k) 的 似 然 函 

数 为 : 


(Ө; yi e yp) -Era = k)P(y: | С, = k;0) (5. 2) 


其 中 С, 表示 数据 y, ВТ 03 3 , 直接 通过 最 大 似 然 计 算 每 个 参数 的 过 程 中 ,需要 对 
所 有 的 C, 求 边缘 分 布 , 但 这 个 边缘 分 布 往往 难于 计算 ,所 以 需要 寻找 其 他 的 计算 
方法 ,例如 EM(Expectation Maximization algorithm) 等 。 
ERDE K 对 模型 有 很 大 的 影响 ,如 果 K 比 实际 的 复数 小 , 则 同一 复 中 数据 
的 相似 性 降低 ,如 果 K 过 大 , 则 形成 孤立 点 的 可 能 性 增 大 。 参 数 方法 中 事先 假定 
复 的 个 数 ,降低 了 聚 类 的 有 效 性 和 合理 性 。 而 非 参 数 方法 恰好 可 以 避免 这 个 问题 ， 
在 贝 叶 斯 非 参 数 方法 中 , K 的 值 由 观测 数据 决定 。 观 测 数据 的 概率 模型 为 : 
ply) = [ Po. | 0)G(d0) (5.3) 


其 中 9€ Ө, G 是 无 限 维 函 数 空间 中 的 一 个 未 知 的 混合 分 布 。 把 式 (5. 3) 写 为 层次 
形式 ,得 到 : 
yi | 0, ~ ply; | 0.) 
0, | G — G(d0) (5. 4) 
G ~ P(G) 
在 贝 叶 斯 非 参数 中 ,无 限 维 空间 中 的 G 的 先 验 P (G) 通常 赋 以 随机 过 程 。 随 机 过 
程 在 本 书 第 2 章 中 已 经 进行 详细 的 描述 ,本 处 不 作 效 述 。 
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5.1.1 基于 狄 利克 雷 过 程 的 聚 类 


AUR G 由 犹 利克 雷 过 程 生 成 , 记 为 G ~ DP(y, H), 其 中 y 是 收敛 参数 , HE 
基础 测度 。 假 设 聚 类 的 空间 以 Q 表示 ,对 于 Q 的 一 个 分 割 C, ,…,C 有 
(GCC, GG) ~ DirCYH CC), ,yH(C,)) (5. 5) 


其 期 望 是 ELG(C; )] = H(G), 方差 为 Var[G(C;)] =  — нч 
进行 边缘 积分 计算 后 , yu 表现 出 聚 类 的 效果 。 在 已 有 :ii 个 观测 数据 y, 的 已 经 聚 
类 的 条 件 下 ,对 第 i 十 1 个 观测 数据 , 它 要 么 属于 前 i 个 数据 构成 的 一 个 簇 ,要 么 构 


。 对 G 


угы | yu ~ „ЕН ушы) + >) ЛЕ (уд) (5.6) 


其 中 Nc 是 当前 已 有 的 簇 的 个 数 , п, 是 第 7 TEP CA DRWA, 0, 是 第 
/个 簇 的 参数 。 这 个 过 程 就 是 中 国 和 餐馆 过 程 。 关 于 中 国 餐 馆 过 程 的 描述 详 见 第 
23. 

图 5. 1 显示 了 狄 利克 雷 过 程 对 一 维 数据 的 聚 类 结果 ,数据 均 依照 高 斯 分 布 随 
机 生成 ,均值 分 别 选取 一 2,2,10, 方差 为 0.5。 三 次 实验 的 循环 次 数 分 别 是 10, 
100,500 ,每 行 中 左 侧 是 先 验 分 布 , 右 侧 是 后 验 分 布 , 灰 色 区 域 是 根据 先 验 或 后 验 采 
样 的 范围 , 实 线 为 估计 的 均值 ,虚线 表示 中 间 采 样 值 。 

图 5. 2 显示 狄 利克 雷 过 程 对 二 维 数据 的 聚 类 过 程 , 分 别 是 过 程 中 循环 10,20， 
70,100 次 的 效果 。 

从 上 面 两 个 图 中 可 以 看 出 , 狄 利克 雷 过 程 对 数据 的 聚 类 是 有 效 的 ,而 且 从 对 二 
维 数据 的 聚 类 过 程 可 以 发 现 , 聚 类 过 程 中 K 不 是 固定 不 变 的 ,而 是 随 着 观测 数据 
发 生变 化 。 


5.1.2 视频 背景 剪除 中 的 狄 利克 雷 过 程 聚 类 


背景 剪除 是 视频 处 理 中 的 一 种 常用 方法 ,例如 前 景 检 测 、 目 标 跟 踪 等 。 背 景 剪 
除 的 过 程 一 般 是 先 建立 背景 模型 ,通过 训练 视频 对 模型 参数 进行 学 习 ; 将 当前 的 视 
频 帧 与 背景 模型 进行 比较 ,任何 存在 较 大 差异 的 区 域 都 被 认为 是 前 景物 体 。 

近年 来 ,人 们 为 解决 背景 剪除 问题 提出 了 许多 方法 ,例如 高 斯 模型 .高 斯 混合 
模型 核 密度 估计 等 。 高 斯 模型 由 Wren 等 人 提出 ,模型 对 帧 中 每 个 像素 分 别 建立 
相应 的 密度 分 布 函 数 , 尽 管 模型 在 室内 场景 中 取得 成 功 的 应 用 ,但 对 于 复杂 的 室外 
场景 ,模型 对 于 往复 运动 的 背景 物体 识别 率 很 低 ,例如 ,摇晃 的 树枝 等 。 混 合 高 斯 
模型 用 多 个 加 权 的 高 斯 分 布 来 描述 每 个 像素 ,在 处 理 新 一 帧 图 像 时 ,如 果 某 个 像素 
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图 5.1 DP 对 一 维 高 斯 数据 的 聚 类 


可 以 用 混合 高 斯 的 背景 模型 描述 , 则 认为 此 像素 属于 背景 ,否则 将 此 像素 分 类 为 前 
景 像 素 。Stauffer 等 人 给 出 了 更 新 混合 高 斯 模型 参数 的 高 效 方法 ,但 其 高 斯 核 的 
个 数 是 固定 的 。Zoran 等 人 给 出 了 高 斯 核 自动 选择 的 自 适 应 ADE 背景 剪除 算法 。 
其 他 的 背景 剪除 算法 还 包括 Graph-cut 算法 .基于 主 成 分 分 析 的 背景 剪除 算法 等 。 
我 们 基于 贝 叶 斯 非 参 数 对 聚 类 的 自 适 应 性 ,提出 基于 狄 利 克 雷 过 程 的 背景 剪除 
算法 。 

在 背景 剪除 之 前 ,首先 将 每 一 帧 图 像 分 为 多 个 大 小 相同 的 块 ,将 块 中 所 有 像素 
点 的 值 映射 ,得 到 一 个 离散 的 集合 : dx) = dL) dL), e). AD AE 
利用 直方 图 窗口 进行 分 割 , 用 大 小 为 W 的 直方 图 窗口 把 视频 中 每 一 帧 图 像 分 为 相 
同 大 小 的 块 , 以 像素 i 为 中 心 的 窗口 中 所 有 像素 的 密度 值得 到 h; = Cha ttt shim) o 
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5.2 DP 对 二 维 高 斯 数据 的 聚 类 


对 于 dz’), > 


FdG!) | 0) 一 =L If 





ZAP) 
; (5.7) 
== AU " 
Zap 26; )log(0;)) 
其 中 ZI Go) 是 标准 化 函数 。 令 Ө, 服从 狄 利克 雷 分 布 
1 _ 
== Li 如 一 ! 
Go (0; | Br) Bio 118 
(5. 8) 
= Big *P 22089 — 1)108(0,)) 
Піх) 
其 中 B( Br) = “Te 8 是 正 实 数 ， л 是 概率 回 量 。 
Е,С, 390,15 315 39: 
pO; | 40% )) ос F(d (x^) | 60G, C0) 
ос exp( >) (d Gri? ) + Bx; — 1010800 )) (5.9) 


= G, (0; | d(x?) + Bm) 
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则 生成 新 入 的 概率 为 : 
-— af F(d(z!”) | 60G, C6, dó, 
0, 


aB (d xi? ) + Вл) мао 
i Z(d Cri? )) BC Bm) 
А РЕНН k TRY : _ 
qa © nF aG) | Of) 
(5.11) 
s TIE xpC2 id Gr) log (d) 
k= 1,… ,NN,。 ROS 6 2 0, 


6: ~ GO )ТТЕ‹а(х?) | &» 


115 =k 


сс exp( 2 (pn, 十 Dud Gi) — Dog )) (5. 12) 


ос 606; | Br + S d (xt )) 
ils =k 
具体 算法 如 表 5.1 所 示 。 
表 5.1 BSMDP 算法 
算法 3, BSMDP 算法 


58 A Box Al í г? ‚г? ,其 中 1 = 0.. ,下 一 1 
输出 : S 
(1) dC? = fup CLE?) ; 





(2)4 = 0, 05 ~ 6005) || Frac» | 0); 


(3)4t< TWP LUG: 


aB (d(x; ) + Br) 


qo © Fda BO | 


n, 
Ча © Fda) 
(4) 根 据 qo ot зам, 得 到 ; 
WF kE (0,.... N.) , 则 S; 一 ,否则 NN, < №. +1, SAN, 
(6) 更 新 0: 01 ~ Go (0; ) Tas, -F 040219) | 05); 
(7) 迭代 (3) 一 (6) 直 至 收敛 。 


exp( S d Gr? )log(0;)) ; 
j 
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5.1.3 实验 结果 与 分 析 


为 了 验证 本 算法 的 有 效 性 ,我 们 以 算法 对 Campus 视频 进行 背景 剪除 处 理 。 
在 实验 中 ,对 于 块 尺寸 М, 需要 根据 视频 的 复杂 度 进行 设 定 。M 值 越 大 ,计算 速度 
越 快 ,但 同时 会 丢失 更 多 的 细节 信息 。 图 5. 3 显示 了 算法 的 背景 剪除 效果 。 第 一 
行 是 视频 中 的 原始 图 像 ,分 别 选取 视频 中 第 900 tr. 1200 帧 和 2500 帧 。 第 二 行 是 
通过 算法 背景 剪除 后 的 图 像 ,第 三 行 是 从 视频 中 学 习 的 背景 图 像 ,最 后 一 行 是 当前 
视频 帧 与 学 习 背 景 的 差异 图 。 从 图 中 可 以 看 出 ,算法 能 够 学 习 出 视频 背景 ,但 效果 
不 够 理想 。 





图 5.3 背景 剪除 实验 结果 
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5.2 基于 Polya Tree HY AE HER 


上 一 节 中 讨论 了 贝 叶 斯 非 参 数 狄 利克 雷 过 程 对 聚 类 的 实现 ,并 在 此 基础 上 给 
出 适应 背景 剪除 数据 特点 的 狄 利 元 雷 过 程 聚 类 方法 ， À i XJ p AE Rb Bi В D BT 
斯 非 参 数 方法 进行 研究 ,提出 基于 Polya Tree 的 高 维 稀 朴 聚 类 方法 ,并 利用 图 像 
标注 实验 对 其 进行 验证 。 


5.2.1 高 维 稀 朴 聚 类 问题 和 现 有 方法 


目前 ,高 维 稀疏 数据 多 指 高 属性 维 稀 玻 数据 , 即 假设 有 N 个 数据 ,每 个 数据 有 
M 个 属性 , M 的 值 较 大 , 且 每 个 数据 的 大 部 分 属性 值 为 零 。 高 维 稀 玖 数据 的 产生 
与 生物 信息 学 的 发 展 和 电子 信息 化 的 加 深 密 不 可 分 ,在 实际 的 高 维 数据 应 用 中 , 往 
往 需 要 对 某 类 具有 上 百 个 属性 的 对 象 进 行 聚 类 ,从 而 很 难得 到 理想 的 聚 类 结果 。 
至 今 , 有 很 多 文献 对 如 何 进 行 高 维 对 象 之 间 的 聚 类 进行 了 研究 ,提出 的 方法 主要 包 
括 频 繁 模式 挖掘 、 特 征 转换 法 特征 选择 / 子 空间 上 聚 类 等 。 

1) 频 繁 模式 挖掘 方法 

频繁 模式 挖掘 源 自 关 联 分 析 ,确定 关联 规则 中 的 频繁 项 集 和 它们 的 支持 度 问 
题 ,被 称 之 为 频繁 模式 的 挖掘 。 对 于 高 维 稀疏 数据 集 ,频繁 模式 挖掘 算法 可 用 来 发 
现 有 共同 调控 关系 的 属性 或 属性 组 ,基于 频繁 模式 的 关联 规则 可 以 用 来 构建 属性 
网 络 。 频 繁 模式 的 挖掘 算法 可 以 划分 为 三 类 :基于 特征 计数 的 算法 .基于 行 计 数 的 
算法 和 混合 计数 算法 。 基 于 特征 计数 的 算法 有 A-close, CLOSET, MAFIA, 
CHARM 和 CLOSET 等 。 这 些 算法 分 别 采 用 宽度 优先 搜索 (BFS) 和 深度 优先 搜 
索 (DFS) 算 法 对 搜索 特征 计数 树 从 根部 进行 搜索 ,保证 所 有 的 特征 组 合 都 访问 到 。 
基于 行 计 数 的 算法 有 Carpenter; FARMER, TOPKERS, TD-Close 等 。 混 合计 
数 算法 有 COBBLER 等 。 

2) 特 征 转换 法 

特征 转换 法 是 高 维 聚 类 常用 的 一 种 方法 ,这 种 方法 先 将 原 数 据 进 行 降 维 处 理 ， 
然后 在 降 维 的 空间 中 进行 聚 类 。 最 普遍 的 是 通过 主 成 分 分 析 (PCA) 把 数据 映射 到 
一 个 低 维 的 子 空 间 中 ,这 个 空间 可 以 保留 数据 的 多 数 变量 ,然后 在 这 个 低 维 的 子 空 
间 中 用 欧 几 里 得 距离 构建 相似 矩阵 ,从 而 得 到 更 精确 的 聚 类 。 但 是 ,如 果 数 据 在 这 
个 子 空间 中 的 投影 是 非 线 性 的 ,这 种 算法 的 效果 很 差 ,例如 ,图 5.4 显示 的 降 维 投 
影 , 数 据 ( 用 “x ”表示 ) 经 过 PCA 降 维 后 的 投影 用 虚线 表示 ,合理 的 降 维 结果 用 实 
线 表示 。 左 图 的 合理 投影 是 非 线性 的 。 右 图 是 线性 的 。Yeung 等 证 实 了 PCA (Е 
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为 降 维 的 方法 对 基因 表达 数据 的 聚 类 是 不 合适 的 。 


z *, 
2 
a м, „Яу. 
z : 
A ; 
Fd 
` "d 





5.4 主 成 分 分 析 降 维 


WRX (Spectral clustering) 是 另 一 个 常用 的 技术 , 它 是 一 个 通过 对 相似 和 矩阵 
以 Laplacian Eigenmap 的 降 维 方式 降 维 之 后 ,再 执行 K-means 的 一 个 过 程 。 在 这 
个 算法 中 ,相似 矩阵 通过 核 孙 数 计算 。 常 用 的 核 函 数 是 高 斯 核 , 通 过 对 相似 和 矩阵 的 
Laplacian 和 矩阵 求解 特征 值 和 特征 向 量 , 将 特征 值 从 大 到 小 进行 排列 , 取 最 大 的 
个 特征 值 对 应 的 特征 向 量 组 成 矩阵 ,再 对 这 个 特征 向 量 矩 阵 用 K-means 算法 进行 
聚 类 ,结果 中 每 一 行 所 属 的 类 别 就 是 数据 点 分 别 所 属 的 类 别 。 尽 管 特征 转换 法 的 
多 种 算法 针对 不 同 的 数据 集 展现 了 良好 的 聚 类 效果 ,但 该 方法 在 执行 中 ,一 方面 难 
于 确定 合适 的 &A 值 , 另 一 方面 ,高 维 空间 中 存在 大 量 无 关 维 而 掩盖 了 簇 , 给 聚 类 造 
成 困难 ,同时 ,在 聚 类 过 程 中 容易 产生 无 意义 的 复 。 因 此 ,该 方法 适合 事先 已 知 大 
多 数 维 都 相关 的 高 维 数据 集 进行 聚 类 。 

3) 特 征 选择 / 子 空间 法 

特征 选择 只 在 那些 相关 的 子 空间 上 执行 挖掘 任务 ,因此 它 比 特征 转换 能 更 有 
效 地 减少 维 。 特 征 选择 一 般 使 用 贪心 策略 等 搜索 方法 搜索 不 同 的 特征 子 空间 , 然 
后 使 用 一 些 标准 来 评价 这 些 子 空间 ,从 而 找到 所 需 的 簇 。 

子 空 间 聚 类 方法 在 相同 数据 集 的 不 同 子 空间 上 发 现 聚 类 ,这 些 子 空 间 通 常 要 
尽 可 能 多 地 包含 原始 数据 的 特征 。 由 于 基于 不 同 的 子 空间 进行 聚 类 ,该 方法 需要 
使 用 一 定 的 测评 标准 来 筛选 出 需要 聚 类 的 得, 从 而 在 多 个 子 空间 聚 类 的 结果 中 选 
择 能 够 使 测评 标准 最 大 (或 最 小 ) 的 那个 子 空间 作为 算法 的 聚 类 结果 。 另 外 ,和 特 
征 选 择 一 样 , 子 空间 聚 类 需要 使 用 一 种 搜索 策略 ,选择 的 搜索 策略 对 聚 类 结果 有 很 
大 的 影响 。 根 据 搜 索 方 向 的 不 同 , 可 以 将 子 空间 聚 类 方法 分 成 两 大 类 : 自 顶 向 下 的 
搜索 策略 和 自 底 向 上 的 搜索 策略 。CLIQUE,ENCLUS 算法 采用 了 自 底 向 上 的 搜 
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索 策略 ,它们 的 改进 算法 MNFIA,LTREE, СВЕ, DOC 都 采用 某 种 策略 动态 查找 
最 佳 分 割 点 ,以 获得 比较 稳定 的 结果 。 然 而 , 自 底 向 上 的 策略 很 容易 导致 有 重合 的 
簇 产生 , 即 某 些 点 不 属于 一 个 簇 或 属于 多 个 艇 。 该 类 方法 一 般 都 需要 两 个 参数 :网 
格 的 大 小 和 密度 阅 值 。 两 个 参数 的 值 对 最 后 形成 簇 的 质量 有 很 大 影响 ,但 是 要 确 
定 它们 非常 困难 。 自 项 向 下 算法 为 数据 的 每 个 部 分 都 建立 徐 , 这 意味 着 不 会 有 重 
复 的 簇 产生 ,一 个 点 只 能 赋予 一 个 徐 。 许 多 算法 也 产生 一 个 集合 来 分 析 孤 立 点 。 
PROCL US 是 最 典型 的 自 顶 向 下 算法 。 但 这 种 方法 中 的 参数 ,例如 , 簇 的 数量 、 相 
同 或 相近 的 簇 的 大 小 很 难 确定 。 另 外 , 子 空间 聚 类 的 最 大 挑战 在 于 如 何 找到 最 恰 
当 的 子 空间 ,这 也 阻止 了 该 方法 的 更 多 应 用 和 发 展 。 

另 一 种 直观 的 聚 类 方法 是 基于 高 斯 混合 模型 的 聚 类 ,但 对 于 高 维 稀 玖 数据 , 协 
THES BAAR. AT HAMAR HES AMMEN RA. п 
要 对 协 方差 矩阵 进行 正则 化 处 理 。 

2009 年 以 来 , 随 着 贝 叶 斯 非 参 数 方法 的 快速 发 展 , 尤 其 在 2011 年 , 贝 叶 斯 非 
参数 方法 的 研究 者 们 提出 多 种 基于 贝 叶 斯 非 参 数 方法 的 高 维 稀 疏 聚 类 ,例如 ，Yanu 
等 提出 的 以 高 斯 过 程 为 基础 的 “K- 成 分 层次 贝 叶 斯 高 斯 混合 ?模型 ,Socher 等 人 提 
出 的 “ 谱 中 国 餐馆 过 程 ”>,Nia 提出 的 “高 斯 和 非 对 称 Laplace RARA”, Adams 等 
人 在 2010 年 NIPS 会 议 上 发 表 的 以 树 结 构 Stick-breaking 过 程 对 层次 数据 进行 建 
模 的 方法 ,等 等 。 

在 分 析 了 现 有 方法 的 基础 上 ,本 章 给 出 一 种 新 的 对 高 维 稀 玻 数据 聚 类 的 方法 ， 
与 树 结构 的 Stick-breaking 过 程 类 似 , 我 们 也 采用 树 的 结构 对 高 维 稀疏 数据 赋予 
先 验 ,但 与 Stick-breaking 树 是 多 叉 树 不 同 , 新 方法 构造 二 叉 树 ,利用 二 -又 树 存储 
和 遍历 的 优点 ,实现 数据 的 快速 聚 类 。 


5. 2. 2 Pólya Tree 


Polya Tree Polya Urn 机 制 发 展 而 来 。 正 如 第 2 章 中 对 Polya Urn 机 制 的 
分 析 , 它 是 最 简单 .最 实用 的 生成 可 交换 随机 变量 序列 Y, ,Y,,… 的 方法 , 且 这 些 变 
量 的 值 包含 在 有 限 集合 玉 二 {10,…,k) H, Pólya Tree 定义 在 E* -UEZ E.A 
不 同 的 把 中 取 球 从 而 生成 随机 变量 序列 , Mauldin 等 人 证 明了 这 些 随机 变量 序列 
也 是 可 交换 的 。P6lya Tree 分 布 为 随机 概率 测度 的 分 割 定义 了 有 限 维度 的 分 布 ， 
从 而 扩展 了 狄 利克 雷 过 程 的 思想 。Pelya Tree 具体 定义 如 下 : 

定义 $.1:(Palya Tree) 对 于 了 及 上 的 随机 概率 测度 P, 如 果 存 在 随机 变量 Y = 
(YoYo УА РИ АЕ, ДК P 有 Polya Tree 分 布 ,分 布 的 参数 为 
(I,A), WX P ~ РТ(П.А), 

(1)Y 中 的 随机 变量 是 相互 独立 的 ; 
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(2) 对 每 个 s € Е*, BAY. ~ Beta(a san) ; 
(3) 对 每 个 im = 1,2,… 和 每 个 es C E", 


Р(В,) = Isa А TD Yon 


其 中 , E" = {e = 6,7566 € {0,1}}, Е = {у}, Е" =U E", 

对 于 Polya Tree, 可 以 通过 如 下 过 程 描述 

(1) $ (B, ,Bi) 是 对 R 的 一 个 测度 分 割 , (B. Bu} 是 对 B, 的 分 割 ，{ Bo， 
Bu} Æ B, SAN ЖУМ. 在 第 m 阶 分 割 , Bove € E" 被 分 割 为 (Bo. Ba}. 
在 分 割 中 ,允许 Bo = ф,В. = В, 情况 的 存在 。 图 5. 5 描述 了 这 个 分 割 过 程 





se e [Ue I CT CT ae a DT TT T ae [a| A 


图 5.5 Pólya Tree 对 测度 空间 的 分 割 过 程 


(2) 定义 随机 变量 序列 Y = (Yo. Yo ,Yio,…} 和 一 个 非 负 的 实数 参数 序列 A 
== (ao #1 *000 sQ 10 T 9 对 每 个 le € E* ° 有 bum cas Beta (a.o sQ). $0 BIA 05 $1 即 为 
ls 

(3)Y 中 的 随机 变量 决定 P 中 的 条 件 分 布 Y = P(B, | B), 换个 角度 讲 ， 
P(By | BO 上 信息 的 权重 由 参数 wo ,as 决定 。 

如 果 对 于 任意 sE Е*, WE а, = ao Haa, MU Polya Tree 是 狄 利克 雷 过 程 


5.2.3 基于 Pólya Tree 的 高 维 稀疏 聚 类 


在 分 析 了 高 维 稀 朴 数据 特征 和 Polya Tree 特点 的 基础 上 ,方法 采取 在 线 
COnline) 的 方式 对 观测 数据 进行 聚 类 。 这 种 选择 一 方面 基于 在 线 算 法 的 计算 量 
小 ,只 根据 已 有 观测 值 获得 的 结果 和 当前 观测 值 进行 计算 , 另 一 方面 考虑 到 处 理 的 
数据 维度 高 , 批 处 理 算法 中 计算 开销 大 。 图 5. 6 给 出 了 方法 的 整体 过 程 ,方法 的 输 
和 人 可 以 是 任何 形态 的 数据 集合 ,例如 ,文本 文档 、 手 写 数字 、 图 像 等 等 。 对 于 这 些 数 
据 ,首先 计算 其 特征 矩阵 。 例 如 ,对 于 图 像 ,通过 第 4 章 的 字典 学 习 方法 ,获得 同类 
图 像 的 字典 ,并 将 待 聚 类 图 像 通 过 字典 映射 为 特征 和 矩阵。 再 对 特征 矩阵 根据 
Polya Tree 聚 类 算法 得 到 数据 的 聚 类 结果 。 


第 5 章 基于 狄 利克 雷 过 程 的 聚 类 方法 | 077 


images digits 





Dataset(any modality) 


Documents as 
feature vectors 





Feature Representation 











Clestering 


В 5.6 基于 Pólya Tree 聚 类 方法 的 框架 


把 Pelya Tree 生成 狄 利克 雷 过 程 的 构建 过 程 看 作 是 生成 无 穷 分 割 ,对 于 高 维 
B Bu Cs X = {ху.х,. ху} 的 聚 类 过 程 ,有 随机 测度 P ~ РТОП,А), 存在 随机 变 
t 0 一 (0, » 0, , 0, Ө} 满足 Polya Tree 的 条 件 , 聚 类 过 程 为 : 


c, ~ MultinomialCz,) 
D 
m ~ [62-0627 (5. 13) 
d=1 


0, ~ Betala., за, ) 
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ЖФ D E Polya Tree 的 当前 深度 , e; 是 聚 类 Polya Tree 中 深度 为 d 的 一 个 节点 ， 
其 左右 两 个 子 节点 分 别 是 se 和 sm， 相 应 的 参数 为 和 0. ,a =a, Ha, o 
树 的 深度 D 随 着 观测 数据 的 增加 发 生变 化 ,这 也 是 用 Polya Tree 对 聚 类 建 模 
的 优点 。 聚 类 的 簇 的 范围 受 4 参数 控制 , 当 节 点 6 所 属 簇 的 原子 不 断 增加 , 当 原 子 
的 方差 超过 4, 则 将 该 簇 分 割 为 两 个 子 簇 , 即 对 节点 є„ 分 裂 为 两 个 子 节点 ,; D = 
D 十 1。 对 该 徐 中 的 原子 ,根据 ху. ЕНА РА РЕА РЖ. 
TE kai EP , А ZEE ULCUS X 的 聚 类 过 程 也 是 Polya Tree 的 生成 过 程 。 由 
于 Polya Tree, 其 后 验 也 是 Pólya Tree, 由 观测 数据 х, 更 新 的 Pólya Tree. FM 
WIR Bit Pal ER xs. 如果 它 落 人 Polya Tree 中 节点 e, XE НУ, Д] Polya Tree 更 新 的 
参数 ana, Ох) = аһа, Go) +1, 其 中 Path, 是 节点 es 及 其 所 有 祖先 节点 。 
a Р ~ PTALA), P 的 后 验 也 是 Polya Tree。 在 有 观测 数据 xo xy 条 
件 下 ， 
Р | (xi) ~ PT(,A(xX xzN)) (5. 14) 
其 中 a(x, xs) = a, + noon JE (xi) BAe TAM RY RETRO 的 更 
新 为 : 
0. ~ Betalas, +n. за, Fa) (5. 15) 
具体 算法 PT-HDSC 如 表 5.2 Ara. 
表 5.2 PT-HDSC 算法 
算法 4, PT-HDSC 算法 


输入 : (X15... XN) 

输出 :C 

(1) 根 据 父 节点 co 和 参数 0. 初始 化 Pólya Tree; 

(2098 i 次 迭代 ,第 1 步 :得 到 x; 在 Polya Tree 中 的 路 径 ; 

(3) 第 2 步 :根据 式 (5.15) 更 新 路 径 中 的 0 s 

(4) 第 3 步 : 得 到 路 径 中 最 深层 节点 ,从 而 计算 с, 

(5) 如 果 c, >, 则 初始 化 参数 se 和 sw ,并 将 с, 的 节点 分 类 到 с. 和 co， ,更 新 参数 so 和 ел; 
(6) 迭代 (2) 一 (5) 直 至 收敛 。 


5.2.4 实验 结果 与 分 析 


为 了 验证 基于 Polya Tree 聚 类 方法 的 有 效 性 ,我 们 在 CIFAR 图 像 数据 集 上 
进行 实验 ,该 数据 集 包 含 50 000 幅 训练 图 像 和 10 000 幅 测试 图 像 ,图 像 包含 100 类 
物体 ,每 幅 图 像 均 为 32X 32X3 彩色 图 像 。 数 据 集中 包含 的 图 像 的 拍摄 尺度 、 视 
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Ж 、 光 线 和 背景 都 各 不 相同 ,这 加 大 了 图 像 识 别 和 聚 类 的 难度 。 
实验 运行 环境 为 四 核 15 280GHz 处理 器 ,8GB 内 存 ,matlab 版 本 为 R2010b。 
受 实验 条 件 限制 ,实验 选取 部 分 训练 图 像 和 测试 图 像 进行 实验 。 实 验 首先 采用 第 
4 章 字 典 学 习 的 方法 提取 图 像 特征 ,并 对 字典 的 维度 设置 上 限 为 256, 对 于 那些 有 
效 维度 小 于 上 限 的 字典 ,以 0 对 其 补 全 ,从 而 得 到 维度 一 致 的 特征 表示 x, € R°, 
然后 再 通过 PT-HDSC 算法 对 其 进行 聚 类 ,部 分 聚 类 结果 如 图 5. 7 所 示 。 








5.7 部 分 聚 类 结果 
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5.37) 结 


聚 类 分 析 是 发 现 数据 信息 中 存在 的 各 种 关系 和 规则 ,进行 快速 信息 检索 的 有 
效 途径 。 本 章 在 分 析 贝 叶 斯 非 参 数 方法 实现 聚 类 的 基础 上 ,针对 视频 图 像 数 据 和 
高 维 稀 朴 数据 的 聚 类 问题 进行 研究 。 为 了 适应 视频 图 像 数 据 的 聚 类 ,提出 基于 混 
合 狄 利克 雷 过 程 的 背景 剪除 方法 ,并 通过 实验 证 实 了 方法 的 可 行 性 和 有 效 性 。 继 
而 ,针对 高 维 稀 朴 数据 的 特征 ,给 出 基于 Polya Tree 的 聚 类 方法 。 该 方法 对 于 待 
聚 类 的 数据 先 通 过 特征 提取 ,得 到 数据 在 高 维 属 性 下 的 稀疏 表示 ,再 对 这 些 高 维 稀 
ИОС l Polya Tree 建 模 , 得 到 能 够 适应 数据 增加 树 的 深度 .改变 聚 类 数 的 一 种 
聚 类 方法 ,并 通过 对 CIFAR 图 像 数 据 集 的 聚 类 实验 证 实 了 方法 的 有 效 性 。 


第 6 章 
结束 语 


统计 稀疏 学 习 是 计算 机 科学 ` 统 计 学 和 认 知 科学 的 交叉 领域 ,是 一 个 新 兴 的 统 
计 学 习 研 究 方向 ,而 贝 叶 斯 非 参 数 方法 对 统计 稀 朴 学 习 中 问题 的 研究 有 重要 的 作 
用 。 本 书 对 贝 叶 斯 非 参 数 方法 的 构造 方法 、 表 达能 力 和 推理 机 制 进行 了 研究 和 讨 
论 。 在 此 基础 上 ,研究 了 贝 叶 斯 非 参 数 方法 对 统计 稀疏 学 习 中 稀 朴 表示 、 稀 朴 建 模 
和 稀 玻 降 维 问题 的 建 模 方法 和 推理 过 程 , 并 将 其 应 用 于 具体 视觉 任务 ,例如 手写 数 
字 识 别 .图 像 降 噪 .视频 背景 剪除 等 ,同时 也 利用 这 些 视觉 任务 验证 了 方法 的 可 行 
性 和 有 效 性 。 

贝 叶 斯 非 参数 方法 是 表示 和 分 析 不 确定 性 知识 的 有 效 工 具 , 然 而 贝 叶 斯 非 参 
数 方法 的 应 用 研究 在 国内 尚 处 于 起 步 阶 段 。 本 书 基于 贝 叶 斯 非 参 数 的 统计 稀 玻 表 
IR ,学 习 和 推理 ,针对 统计 稀疏 学 习 理 论 的 主要 问题 ,在 分 析 贝 叶 斯 非 参数 方法 中 
典型 的 模型 构建 ,学习 方法 和 推理 机 制 的 基础 上 ,对 贝 叶 斯 非 参数 方法 对 稀 朴 的 表 
达能 力 ,构建 方法 和 推理 机 制 进行 了 探索 性 研究 。 

针对 统计 稀 玻 学 习 中 稀疏 表达 的 建 模 问题 ,通过 扩展 稀 朴 向 量 的 函数 形式 , 提 
出 自 适 应 稀 玻 向 量 线性 表达 的 贝 叶 斯 非 参 数 方法 以 获得 更 稀疏 的 稀 朴 表示 模型 。 
利用 混合 贝 努 利 - 贝 塔 过 程 ,自动 根 据 观测 数据 在 已 知 测量 矩阵 上 的 稀 朴 投影 频率 
调整 稀疏 向 量 的 稀疏 度 。 同 时 以 高 斯 分 布 近 似 的 拉 普 拉 斯 先 验 对 HE ЖОЖ TT OB 
近 ,降低 推理 的 复杂 度 和 提高 计算 速度 ,并 分 别 在 人 工 单 位 脉冲 数据 集 和 手写 数字 
识别 数据 集 上 证 明了 方法 能 够 降低 误差 ,提高 识别 率 。 

稀疏 降 维 在 图 像 字典 学 习 中 有 非常 重要 的 应 用 ,本 书 针对 字典 学 习 建 模 中 存 
在 的 字典 维度 不 能 根据 观测 数据 自 适应 调整 的 问题 ,以 图 像 降 噪 为 应 用 对 象 ,提出 
了 一 种 基于 高 斯 过 程 聚 类 的 贝 叶 斯 非 参数 字典 学 习 方 法 。 基 于 高 斯 过 程 聚 类 的 建 
模 方 法 更 适合 图 像 数据 的 特点 ,能 够 使 字典 和 稀 朴 表示 模型 在 图 像 数据 集 上 具有 
很 好 的 推广 性 。 在 图 像 降 噪 过 程 中 ,由 样本 集 自 适应 生成 的 列 约束 高 斯 字典 作为 
对 包含 聚 类 特征 的 稀 朴 向 量 的 稀疏 表示 测量 矩阵 ,使 字典 学 习 的 解 具 有 一 定 的 基 
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于 模型 解释 的 可 靠 性 ,获得 的 字典 和 稀 玻 表示 具有 优化 的 解 。 实 验 结果 表明 该 方 
法 在 模型 精度 BL ERU SOME ERI А ха E EB DC. 并 且 在 图 像 降 噪 过 程 中 ， 
通过 设 定 可 调整 参数 可 以 控制 降 噪 过 程 , 以 获得 更 可 靠 的 优化 预测 解 。 

聚 类 分 析 是 发 现 数据 信息 中 存在 的 各 种 关系 和 规则 ,进行 快速 信息 检索 的 有 
效 途径 。 本 书 在 分 析 贝 叶 斯 非 参数 方法 实现 聚 类 的 基础 上 ,针对 视频 图 像 数据 和 
高 维 稀 朴 数据 的 聚 类 问题 进行 研究 。 为 了 适应 视频 图 像 数 据 的 聚 类 ,提出 基于 混 
合 狄 利克 雷 过 程 的 背景 剪除 方法 ,并 通过 实验 证 实 了 方法 的 可 行 性 和 有 效 性 。 继 
而 ,针对 高 维 稀 玖 数据 的 特征 ,提出 基于 Polya Tree 的 聚 类 方法 。 该 方法 对 于 待 
聚 类 的 数据 先 通过 特征 提取 ,得 到 数据 在 高 维 属 性 下 的 稀 玻 表 示 ,再 对 这 些 高 维 稀 
Bü Ca Polya Tree 建 模 , 得 到 能 够 适应 数据 增加 树 的 深度 .改变 聚 类 数 的 一 种 
聚 类 方法 ,并 通过 对 CIFAR 图 像 数 据 集 的 聚 类 实验 证 实 了 方法 的 有 效 性 。 

贝 叶 斯 非 参数 方法 是 机 器 学 习 领 域 研究 的 主流 和 热点 , 它 以 坚实 的 统计 与 概 
率 科学 为 基础 ,激发 了 机 器 学 习 领 域 新 的 研究 主题 。 贝 叶 斯 非 参 数 方法 在 统计 稀 
玻 学 习 中 将 有 更 加 座 远 的 影响 和 广 证 的 作为 。 随 着 统计 稀疏 学 习 理 论 的 发 展 , 需 
要 进一步 研究 与 之 相 适 应 的 贝 叶 斯 非 参数 方法 ,以 期 从 贝 叶 斯 数据 分 析 角 度 ,利用 
非 参 数 方法 的 不 确定 性 表达 能 力 ,给 出 新 的 模型 和 方法 。 由 于 稀 跑 表达 在 视觉 认 
知 上 的 理论 基础 ,采用 视觉 应 用 来 验证 提出 的 统计 黎 玖 学 习 方 法 具有 自然 的 动机 
并 容易 得 到 直观 的 结果 。 目 前 典型 的 视觉 应 用 包括 基于 稀 中 字 典 学 习 的 图 像 降 
品 、 图 像 补充 、 人 脸 识 别 、 动 作 分 割 等 应 用 。 
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